第一推动丛书·综合系列(套装共8册)
上QQ阅读APP看书,第一时间看更新

生命是计算的产物吗?

生命的进化是被研究得最透彻和最著名的复杂引擎的实际例子。当达尔文在1859年发表《物种起源》的时候《物种起源》,查尔斯·达尔文,1859。这本书可能是有史以来影响最大和被引用最多的科学著作。到现在仍然有可读性。,他对信息、计算、蛋白质、DNA这些现代概念一无所知。他甚至不知道基因。他的理论是基于仔细的观察和逻辑思考。作为敏锐的自然观察者,自然种群中观察到的变化以及自然的多样性给他留下了深刻印象。在所有自然种群中,产生的后代许多都无法存活到繁殖期。他问道,如果环境对一些后代的特征有哪怕一点点偏好,进化怎么会不发生呢?

后来在遗传学、生物化学、分子生物学、细胞生物学和计算机科学中的所有发现都支持进化论,从而证实了他的观察和逻辑推理。当然也不是没有反对者。少数科学家和许多非科学人士认为进化论不正确,因为它无法解释一些重要的问题。其中最重要的是生命的最终起源,以及飞行、视觉等重要创新的起源和细胞生物化学的巨大复杂性。所有研究过这些问题的科学家都承认生命的起源还没有很好的解释。达尔文自己就明确说过他的理论没有解释生命的起源,这个理论过去150年来的发展也没有从根本上改变这一点。奇怪的是为什么一个理论会因为无法解释其范围之外的问题而受到责难。这个不完备并不会削弱进化论解释在我们的星球上繁盛的许许多多生物的能力。这只说明我们还需要能用科学实验证明并且与已有的科学认识相一致的起源理论。

至于重要创新的“问题”,现在已越来越清楚这在理论上没有问题,只是目前对动植物发育过程中器官形成的分子机制以及重要的形态创新如何通过突变和自然选择产生的认识还不清楚,对所需事件的界定又太模糊。不过这种情形正在迅速改变。在过去20年里,对器官形成的分子机制的解释取得了巨大进展。新的发现为器官如何进化出现提供了合理而详细的解释。这个领域通常被称为“EvoDevo”(发育进化学),目前是分子生物学最热门的研究领域之一肖恩·卡罗尔(Sean Carroll)的Endless Forms Most Beautiful(2005)可能是最好的介绍进化发育生物学的大众读物。

地球生命进化的最佳解释范式是DNA编码蛋白质塑造生物体(参见第4章)。所有生物都有独特的形态、生理和行为。一些特征是环境作用的结果,比如风刮断树枝或动物因营养不良瘦弱,但表型的大部分方面都是遗传自父母。

从分子层面分析,蛋白质的作用决定了生物体的表型,而蛋白质的表达又取决于DNA序列。回想一下前面的例子,T4噬菌体的保护外壳完全由蛋白质组成,因此其形状和韧性等结构特征显然也是由其成分蛋白质决定。蛋白质改变,特征也会改变。花具有特定的颜色是因为蛋白质酶在花瓣中合成色素分子;如果没有酶就不会有色素,花瓣也不会有颜色。酶改变,色素就会不一样,花的颜色也会不一样。花长出花瓣是因为调控蛋白决定了花在发育过程中细胞生长的基本“设计”图样。另一些调控蛋白则决定了花瓣形态的调控蛋白在植物体内的作用时机和位置。正是调控蛋白表达的时空变化网络最终引导了所有可遗传的动植物结构的形成。

拟南芥的DNA编码了16000种不同的蛋白质(包括副本在内总共26000种),其中大部分蛋白质都参与植物表型的多个方面。表型指的是生物体可观测的形貌特征。一种细菌能合成几千种不同的蛋白质,哺乳动物则超过100000种。即使最简单的生物体,目前科学也没有做到对每种蛋白质的特殊作用进行完整的界定,但不久就有可能出现针对特定生物所有蛋白质的表型作用的巨型数据库。

由于所有蛋白质的结构都完全由对其进行编码的基因的核苷酸序列决定,因此生物的遗传表型最终也是由DNA序列决定。DNA序列来自父母和偶然的突变。这些变化经过选择积累信息,并决定了进化的长期趋势。

重温一下生物学入门课程的内容,生命进化的7条原理:

1.生物繁殖。

2.所有生物群体繁殖的后代都多于父代。这是生物的保险策略,让生物群体能挺过艰难时期。同时也确保群体在好的时期能够扩张。

3.遗传特征由生物DNA(一些病毒是RNA)的核苷酸序列决定。

4.生物体由细胞组成,DNA是每个细胞结构的物理组成部分。因此,如果细胞存活,存储在DNA中的信息就得以延续;一旦细胞繁殖,其中的DNA就被复制;一旦细胞死亡,其DNA编码的信息就失去了。

5.个体不会进化;只有生物群体会一代代随时间进化。

6.自然群体由相同“种类”的生物组成,但群体中每个个体的DNA序列并不完全一样。这意味着不同个体生成的蛋白质也会有细微差别,产生的生物体也会有微妙的差别。遗传学家称这种差别为“群体中的遗传差异”。

7.大自然绝不仁慈。如果某个个体在错误的时间出现在错误的地方,或者无法获得足够的食物,或者找不到配偶,都很糟糕。死亡的、受伤的和不走运的没有留下后代,它们的DNA就不会延续到下一代。现在存在的所有可遗传表型都是基于成功延续下来的DNA序列。

自然界有一条绝对的规律是没有哪个种群能一直扩张。即使对于人类来说也是如此。地球是有限的。细菌的增长生动地揭示了这一点。假设某种细菌能分裂,一个变两个。10代以后,如果都不死,就有1024个细菌,增加1000倍。20代后,就会达到10亿(109)。如果培养基适合生长,一夜之间从一个细胞就可以培育出数以亿计的细菌,对于微生物学家来说,这很平常。但如果一直这样发展下去呢?100代后,如果没有细菌死亡,将会有1030个细菌,只需132代,细菌的质量就会与地球质量相等!再过53代(总共185代),细菌的质量就会超过已知宇宙的质量。而我们只是假设细菌每代有两个后代;牡蛎能有数百万后代。人类如果不节育的话平均每对配偶会有8到10个小孩。如果人类从现在起每一代的数量增加一倍(平均每对配偶4个小孩),人类只需1175年(47代)就会超过地球的质量!显然这是不可能的。要么我们自己有意识地控制后代数量,要么大自然替我们这样做。

从中得出的一条自然规律是,生物要么限制繁殖,要么大部分后代还没有繁殖就会死亡。所有例外都只是临时性的。由于很少有生物会有意识地限制其后代数量,与环境的互动会决定哪些后代能存活到繁殖。在自然界这个选择有两种方式,要么纯粹是运气,要么是因为一些生物更善于生存和寻找配偶。生物通过无穷多种途径与环境互动,互动的细节决定了它们是否会挨饿,或被吃掉,以及是否能繁殖。由于自然种群中的差别,必然会有一些个体更擅长某些事情,一些则做得更糟。一旦这些事情影响到繁殖,就会影响未来群体中呈现的基因。

这个故事的背后是蛋白质和基因。基因决定蛋白质,蛋白质又决定表型;因此如果一个可遗传特征会给后代带来优势或劣势,相应基因在种群中的比例就会增加或减少。如果基因在种群中的比例增加,就意味着下一代会有更多个体携带这种基因,并表达出相应的蛋白质。即使是很温和的选择,力量也很惊人。假设某个基因序列能带来1%的繁殖优势或劣势,很小,如果不进行细致的统计研究谁也不会注意到。群体遗传学为计算这样的DNA序列的命运提供了方法。多代之后的结果取决于种群数量和其他一些参数,如果我们假设群体数量为10000,配偶选择随机,那么具有1%优势的DNA序列会在大约2000代后遍布整个种群。如果是繁殖迅速的细菌,则只需要1个月,如果是橡树或人类,则需要40000年。同样,具有1%劣势的序列,如果开始分布很广泛,在差不多的时间里也会消失,如果初始比例很小,则会消失得更快。100万年足以发生许多变化。

只要自然种群会产生遗传性变异,一些特征会不可避免地增加,一些则会逐渐消失。由于优势或劣势主要由与环境的互动决定,即便是很小的环境变化也会导致一些特征的优势地位改变。在很长时期内如果环境的变动不太剧烈,对特征的选择会导致整个种群的基因成分漂移;如果某种特征比如亮色皮肤、奔跑更快或更好的抗病性受偏爱,则这些特征最终会遍布整个种群。

图5.3将生命进化描绘成了一个循环过程。选择通过成功的繁殖实现,繁殖的成功又取决于个体与环境的复杂互动。很显然图5.3中的循环就是图5.2中的循环的特例。由于DNA编码信息,因此图5.3也描绘了计算。DNA编码的信息既是循环过程的输入也是输出。细胞机器将这个程序转化为蛋白质,然后蛋白质进入细胞或生物结构执行计算。生物的一个本质功能就是繁殖。DNA复制过程中的错误会在每次循环中引入(通常)很小的改变。平均孕育的后代的数量会多于父代数量。由于遗传性变异对于进化的发生很关键,除了简单的错误,还演化出了各种生物机制以确保有足够的新变异和限制产生过大的变化。这其中包括染色体的随机配对和重组等重新排列DNA序列的机制,这些将在后面讨论。

图5.3 生物进化的计算循环

因此,如果聚焦于DNA循环,很显然生命的进化就是计算;从而所有生命都是计算的产物。参与这个计算的DNA序列点滴累积核苷酸信息。累积的信息产生细胞和身体结构,以及(对生物)有益的行为倾向。累积的信息的产物与环境互动。成功用繁殖的成功来衡量。后面我们还会看到,计算机程序中也可以加入类似的性质。

图5.3描绘的是达尔文进化论。但也可以看出图5.3就是图5.2中的计算策略的具体例子。因此也可以说图5.2描绘的是广义进化论。复杂引擎比标准生物进化论更为广义,因为它不限于生命。它对任何能执行计算的系统都起作用。这也意味着图5.2中描绘的复杂计算引擎也可以用来定义非生命个体组成的群体的进化。就如我们将看到的,在判断计算机程序、社会或思想是否会发生真正的达尔文意义的进化时,这个定义会很有用。