基因网络是什么,又是如何运作的?
你的细胞中的DNA编码了生成大约22000种不同蛋白质所需的信息。其中大约有10%的多肽是酶,其余的则有其他的用途。大肠杆菌的DNA编码了4322种蛋白质。有些生物的基因比人类还多,有些则比大肠杆菌还少,但基本都包括了在地球上产生和维持生命所需的各种基因(编码蛋白质的指令)。
即使最粗心的人也会意识到,无论从哪方面来看,人类都要比细菌复杂不止5倍。大肠杆菌只有一个细胞,而一个成年人大约有100亿(1013)个细胞。人类细胞包含各种复杂的亚细胞结构,包括染色体、细胞核、线粒体、复杂的囊泡输运系统以及由上百种相互作用的蛋白质组成的细胞骨架。细菌细胞则没有这些结构。人体有大约200种细胞类型,组织成各种结构、器官,以及在身体各部位之间进行通信和协调的神经和内分泌系统,与入侵身体的微生物作战的免疫系统,可以迅速移动的骨骼肌肉系统,还有管理身体所需的各种物质的消化、呼吸、循环和排泄系统。人类大脑被认为是宇宙中最复杂的事物(更不要说以大脑为组成部分的人体)。大肠杆菌这些都没有。现代基因组学面临的一个最大难题就是理解只比大肠杆菌多5倍的基因如何表达出人体这样的复杂性。
答案目前还不完全清楚,不过可能涉及几个方面。首先,多细胞动植物通过一种名为选择性剪接的过程可以生成大部分蛋白质的多个修饰版本。在这个过程中,在合成蛋白质之前根据基因生成了信使RNA的多个版本。目前还不清楚选择性修饰对于多细胞复杂性的产生有多重要,不过据估计这个过程使得人体产生的多肽的种类增加了100000种。
要理解细菌和人类的差别,最重要的可能是基因调控的相对复杂性。包括大肠杆菌在内,所有细胞中的基因都有一个重要特征,就是基因受控在哪种环境下表达。在任何特定的人类细胞中,在任何特定的时刻,22000种基因中只有1/3到一半会表达,并且如果两种不同的细胞表达了相同的蛋白质,蛋白质的数量也有可能不一样。随着时间推移,蛋白质表达的不同调控,能在由数千节点组成的网络中产生具有不同特性的稳态。
所有动植物的独特复杂性都可以回溯到单细胞时期受精卵或结合子。初始细胞完全不同于成年人体中发现的数百种不同的细胞类型(除了卵巢中成熟的卵细胞)。从受精卵开始形成成年人体的过程中,同时发生了4种活动:细胞通过分裂大量增殖,然后通过细胞分化过程不断改变细胞的物理特性,细胞通过协同移动和生存或死亡在预定位置形成组织和器官,生物从食物分子中获取维持生物化学网络所需的新物质。
通过这4种活动,新生成的细胞类型所建立的结构的互动逐渐产生出身体的复杂性。细胞类型与结构的每次互动又进一步导致结构的细化和细胞类型的多样化,在之前建立的复杂性的基础上建立起更大的复杂性。
所有身体层面的变化背后是具有特定性质的单个细胞的行为。这些性质反过来又是由细胞中表达的蛋白质的数量和类型决定。蛋白质决定生物化学网络的细节,同时也参与细胞中表达的各种结构。单个细胞性质和行为的变化决定了整个身体的形态和能力,因此最终是细胞中22000种基因的不同表达和活动决定了我们是谁。基因组分析表明,用于基因表达调控的人类DNA的数量是直接编码蛋白质的DNA数量的3到5倍。而大肠杆菌只有不到10%的DNA用于基因表达调控。
很显然,要(从分子层面上)认识我们自己,就必须理解基因表达的调控。图9.7是一个基因调控的示意图。调控是通过控制RNA聚合酶实现,RNA聚合酶在细胞中的作用是生成部分DNA的RNA复制体。第4章曾说过,核糖体根据信使RNA分子合成蛋白质。在蛋白质合成过程中,信使RNA分子上核苷酸的顺序决定了形成蛋白质分子的氨基酸的顺序。每个信使RNA可以合成数百个同样的蛋白质分子。由于信使RNA分子会退化,新的信使RNA分子必须不断形成,才能不断生成特定基因对应的蛋白质。因此,蛋白质表达的调控主要就在于信使RNA的生成。
图9.7 与蛋白质编码序列相邻的控制序列的典型基因结构,被称为启动子。信使RNA是DNA蛋白质编码序列的复制体
图9.7中双横线代表DNA分子中的一段。RNA聚合酶不断在DNA周围游荡寻找基因。“起始”和“结束”序列标识RNA聚合酶开始和停止复制DNA的位置。复制总是如图所示从左往右进行。一段称为启动子的DNA序列决定RNA聚合酶是否能成功找到旁边的起始位置。RNA聚合酶的启动有多频繁决定了生成的RNA分子的数量,从而又决定了生成的蛋白质分子的数量。基因表达的控制是通过控制RNA聚合酶是否能到达起始位置实现的。
细胞中与DNA启动子序列结合的蛋白质被称为转录因子。不同的启动子区表现出不同的转录因子结合区,因此细胞中的各个启动子都有独特的转录因子组合。转录因子可以阻止(抑制)或增强(激活)RNA聚合酶的活动。启动子的各种抑制子和激活子的平衡决定了RNA聚合酶在相应的基因的活动。由于抑制子和激活子本身也是蛋白质,因此细胞中表达的抑制子和激活子的数量又是由其他抑制子和激活子决定。这是一个无穷递推系统。所有转录因子的数量都是由所有转录因子整体的浓度决定。因此,基因调控组成了网络,与生物化学网络很类似,只是节点是基因而不是生物化学物质。
这个网络的逻辑结构决定了能生成多少信使RNA。网络响应细胞环境的变化,调控合成哪种蛋白质,合成多少。细菌(例如大肠杆菌)和高等生物(例如人类)的一个重要差别是影响每种基因表达的转录因子的数量。对于大肠杆菌,通常是2种。对于人类基因,数量通常超过20种。由于多细胞生物(例如人类)的基因网络具有更多调控边,网络的复杂度也就比细菌(例如大肠杆菌)要复杂得多。也许就是基因网络的复杂性的差别使得人体比细菌要复杂得多。图9.8给出了一个简单的基因网络的例子。
图9.8 生物钟。果蝇的生理节奏(24小时)循环是基于椭圆表示的6种蛋白质的循环表达。CYC和dCLK相互结合,并激活染色体(细长结构)中编码蛋白质PER、TIM、VRI和PDP1的基因的表达。PER和TIM形成二元复合物,抑制CYC/dCLK的复合。VRI抑制dCLK和CYC的合成,而PDP 1则刺激dCLK和CYC的合成。这个网络的蛋白质浓度以24小时为周期振荡(参见注释2)
同电路和生物化学网络一样,可能的基因调控网络的数量是无法穷尽的。最近的基因组测序表明老鼠和人类的基因(节点)在很大程度上是一样的。主要差别在于基因调控网络的结构。网络的启动子序列和与序列交互的转录因子的微妙结构差别决定了网络的性质。由于转录因子和所结合的DNA序列都编码在DNA中,因此基因调控网络在整体上都是由DNA分子中核苷酸序列写成的指令决定。如果没有指令,就不会有网络,也不会有生命。