基因突变:真的是随机分布吗?
最近,《自然》杂志上的一篇研究吸引了很多科学爱好者的兴趣,更有不少新闻把报道的标题改写成了《颠覆百年理论,最新研究:基因突变不随机》。
这期《科技参考》,我们就来说说这个新研究。
简单地说,新闻报道的题目如果写成《自然选择下的突变偏好》可能更好,因为这就是那篇研究原本的标题,可一旦改成了“颠覆教科书”“颠覆百年理论”就多少带点误导性了。
突变的基因有哪些分布规律?
首先,我们来看看这个研究做了什么。
这项研究的团队是加州大学戴维斯分校和德国马克斯普朗克研究所的生物学家。这都是很过硬的研究团队。他们研究的是一种被我们视为草芥的植物——拟南芥——上的基因突变。
顺便说一句,拟南芥是生物学家研究基因时特别好的研究对象。为什么呢?
首先,它的基因组规模小,只有 1.15 亿个碱基序列,而玉米有 24 亿,人有 30 亿,小麦有 170 亿。基因组规模小的好处就是,测序和分析的工作量会少很多。
其次,拟南芥另一个优势就是禁折腾。它对温度、湿度、光照的变化都不那么敏感,不会因为生长条件变化就轻易死掉。
最后,就是长得快。拟南芥的生命周期只有 6 – 8 周。这样的话,一个博士生从入学到毕业,可以研究好几十代。要是换成一年才成熟一次的植物,那还真等不起。
这两个团队用了 3 年时间,总共培育了 25 代、107 个品系的拟南芥,每个品系里有 40 株幼苗。研究人员对它们的 DNA 进行测序后,一共统计出了 100 万个左右的基因突变。然后再把这些突变放在拟南芥的基因上重新定位,结果就发现:突变并不是在 DNA 链上随机分布的,而是有的地方密集,有的地方稀疏。
由于这次研究的样本数量足够大,测序的 DNA 总量接近 5000 亿,其中又出现了 100 万个突变。所以,如果“突变是随机的”这个结论成立的话,这 100 万个突变不应该只集中在某几个区域,而是应该在很大程度上呈现出尽量分散、均匀分布的特征。但结果却并不是这样,而是有的地方突变密集,有的地方突变稀疏。
那么,是什么区域分布得稀疏呢?
那些对发育来说最关键的基因序列。比如说,负责翻译线粒体基因的序列、信使 RNA 的剪切酶对应的序列、负责基因表达的序列等等。
跟线粒体有关的基因一旦出了问题,能量供给就断了,生命就没法存活了。而一旦信使 RNA 和基因表达的部分出现了变异,就会导致重要的蛋白质零件无法组装,这样的植物就算产生了种子,种子也无法萌芽。
又是哪些区域的基因变异分布得更加密集呢?
那些相对而言和繁衍生息关系不太密切的部分。比如,最典型的是和产生几丁质有关的基因(几丁质就是一些动植物表面的硬壳),还有那些和产生茉莉酸有关的基因或者和缺氧、缺水有关的基因。
在表达为蛋白质的序列中,关键区域的突变比非关键区域低了 2/3 左右。也就是说,其他区域突变 3 个,关键区域才突变 1 个。在上面这个统计中就能看出,基因突变并不是随机分布的。
此外,DNA 上那些突变高发的区域,还被一些特别的蛋白质包裹着。这是一种生物特征,象征着突变高发区。
而我们知道,癌症也源于基因突变,导致癌症的突变基因也都在突变的高发区。于是科学家们觉得,今后可以在人体肿瘤上也观察一下,看看它们是不是也被这些特殊的蛋白包裹,这或许有助于发现癌症。
拟南芥研究是“幸存者偏差”吗?
说回这项研究。你只要想一下就会反问,他们是怎么排除幸存者偏好的呢?
就像那个著名的故事一样:
如果统计战斗机机身中弹区域的分布情况,进而重新设计战斗机来提升安全性,那根本不能提高战斗机的防弹能力。凡是能飞回基地的战斗机,都是因为关键部位没有中弹,才让人们有机会做统计,于是结果一定是那些非关键区域中弹最多。
对战斗机来说,最关键的部位当然是油箱、发动机之类的。但是,凡是这些地方被击中的,大多都坠毁了,根本就没法飞回来让人统计。
这个逻辑放在拟南芥身上也是一样的。那些关键部位发生了重大突变的拟南芥,可能都没长出来。你只统计活着的拟南芥,然后看它们关键区的突变,当然是很少的。这就是幸存者偏差。
这确实是实验没法完全解决的,因为关键区域和“种子是不是能发芽”或者“是不是能产生种子”的关系太密切了。这里有了问题,当然就不会有下一代繁殖出来。
而且,由于是在实验室条件下培育的,光照、养分、水分都充足,没有自然环境里那些压力,反而会让那些非关键区的不良突变造成的实际伤害减小。于是会保留下更多的残次品,结果统计到的非关键区的突变也就更多。
比如,如果有一株发生了突变,导致对养分吸收得不是太好,但又不是完全不能吸收,由于实验室条件下有充足的养分,所以这个不致命的突变就更容易保留下来,增加了非关键区突变的数量。
对于这一点,研究团队也没有给出很好的解释。而且,到底是因为什么因素导致了突变的分布不均匀,作者也没有给出原因——
也许是 DNA 上的关键区已经演化出了一种更稳定的化学结构了;或者是 DNA 的修复机制在关键区工作起来效率更高;也许两者都有可能。
以上就是这个研究的大致内容。接下来,我们说说基因突变是不是随机这件事。
自然突变是随机的吗?
其实,“生物体的基因突变是随机的”这句话,如果被准确地定义为“DNA 序列上的突变是随机发生的”,那不只是在今天,早在 10 年前,不少生物学家就已经提出了异议。
比如,注射一些诱变剂后,生物的 DNA 会发生特定区域的突变,比如会导致所有突变中 85% 的突变都是腺嘌呤 A 变成胞嘧啶 C,也就是俗称的 A – C 突变。这显然就不是随机的。
有人就会说了,你这个突变不是“自然状态”下的,而是人工设置了一个特殊环境,所以不能算数。那什么才算自然呢?比如,人类对地球的影响实在太大了,全部地表都有一种和刚刚说的诱变剂类似的物质,结果当然是所有突变中的 85% 都是 A – C 突变。这算不算自然呢?
你可能还是会说不算,因为这只不过是扩大了人工影响的范围。那假设一颗带有这种诱变剂的小行星撞击了地球,这不是人为的,算自然条件下的突变吗?
可能有人还是会说,“自然状态”就是指那个物种在没有天灾人祸的环境里, DNA 复制时出错的情况。只有这样的才能算数。
但是,这也涉及到什么算没有天灾人祸。比如,今天地球上是氧化为主的气体环境,但这个环境在几亿年前,也可能属于严重缺氧,甚至严重有毒、有害的。气体或者液体压力上也是这样。
对今天来说习以为常的参数,在历史上可能都是灾难级别的。我们怎么能排除那些环境条件对 DNA 关键区、非关键区突变的影响呢?
所以你看,“自然状态”其实很难被定义清楚。
假如不提太久之前的事,就以当下环境稳定、没有明显有害物的情况来说,在生物界确实有主流的声音认为,突变发生的位置是随机的。
但即便是在这种最没有歧义的语境下,今天介绍的研究,也不是最早提出基因突变不随机的。
比他们更加早的,是英国索里大学(University of Surrey)的一位生物学家和一位物理学家。他们的实验验证了,一群无法消化乳糖的大肠杆菌在在乳糖环境里,以比随机变异快几百倍的速度,演化出了消化乳糖的能力。
这个实验之所以有物理学家参与,是因为其中涉及到的知识点是生物学家不能处理的,那就是 DNA 氢键处于量子叠加态。什么意思呢?
我们知道,在 DNA 的四个碱基里,A 和 T 结合,C 和 G 结合,从而形成双螺旋结构。这个结构有点像旋转的楼梯,其中 A 和 T,C 和 G 之间都由氢键连接。
氢键是什么呢?其实就是一个质子。这个质子是更偏向于 A,还是更偏向于 T;或者是更偏向于 C,还是更偏向于 G,其实对 ATCG 到底还是不是标准的、唯一的空间构型,是有一定影响的。
有的时候,A 会变成一个和 A 很像的同分异构体,我们叫它 A*,T 也容易变成 T 的同分异构体,我们叫它 T*。带上 * 之后,A* 和 T* 在形成双链时会和谁结合,那可就不一定了。标准模式是 A – T 结合、C – G 结合,而带上了 * 后,就有更大一些的概率形成 A* – C、T* – G。如果这样的事情发生,就是突变了。
在这位物理学家的计算模拟下,他们证明了在乳糖环境存在的情况下,由于乳糖分子影响到了氢键的那个质子,于是导致 A 和 T 更容易形成它们的同分异构体,进而大大加速了能消化乳糖的大肠杆菌的诞生。它们变异出来的速度,超过随机概率下的几百倍。
这个实验也像今天介绍的实验一样,在一定程度上说明了自然突变不是随机的。
当然,那个乳糖环境是额外的因素,虽然它不是有毒有害的,也不是天灾人祸,而只是一个普通的环境因素,但它就是在为突变的不随机分布做贡献。
可我们又有谁知道,今天环境中的万种因素里,哪个是和这里的乳糖类似的,既无害也无益,但实际上就是在为突变的不随机做着贡献呢?
今天介绍的这个研究,是科学家们在求证突变有没有可能不是随机的方面的一个探索,并没有颠覆什么教科书。
因为之前人们只是从经验上认为突变是随机的,但实际上,要证明一个东西是真随机,比证明它不是随机还要难得多。