如何提高合成生命的成功率?计算机数据驱动
工程思维,是合成生物学最核心的原理。因为工程学的引入,我们可以像组装机器一样组装生命。但是合成生命的成功率实在是不高。
1.为什么重构生物学功能这么难?
我们打个不太准确的比方,如果把一个人的基因组比作一本书,基因元件就相当于一个字,组成的基因就相当于是一个词,每个复杂的生物学功能就相当于一句话。
生物学功能的复杂度相差非常多,你可以理解成,这些句子有长有短,有简单句也有复杂句。
比如,胰岛素合成只需要一个基因,它相当于是只有一个词组成的超短句。但另一种治疗疟疾的特效药,青蒿素就麻烦了,它需要十几个基因,相当于是个复杂句。
我们来讲讲合成青蒿素的案例,这是人类第一次尝试自己写“复杂句”,因为当时用大肠杆菌合成胰岛素已经非常成熟了,所以科学家想用类似的方法来合成青蒿素,解决产量不足的问题。
当时是比尔盖茨基金会出资,委托给很有名的一位合成生物学家,杰·基斯林(Jay Keasling)教授,正好他的初创公司Amyris也刚刚成立。但没想到,研究过程非常曲折,最终做了10年,花了4000多万美元才部分实现。
为什么说是“部分实现” 呢?
一个原因是用大肠杆菌合成青蒿素的产量上不去,后来改用了酵母来做底盘微生物。因为有一种反应酶(P450)在大肠杆菌里没法高效表达,在酵母里却可以。
另一个原因是这个项目最后没有合成青蒿素,而是只合成了青蒿素的前体青蒿酸。合成青蒿素的基因元件一直都没办法执行功能,只好退而求其次,合成前体。
你不用感到意外,这些问题在设计生命过程中很常见。就像写文章,就算你每个字都认识,如果对语法理解不透彻,胡乱把两个字写到一起,结果很可能是个病句。
2.为什么要用数据驱动?
其实这个比喻还可以更贴切一点,相比于写文章,合成生命更像在写诗,要求每个字都字斟句酌。
因为合成生命对精准度的要求很高,一个碱基的差错,不只是功能不表达,甚至影响生命体的存活。
文特尔合成支原体,100万分之1的错误率已经非常低了,但结果导致这个生命无法正常存活。
除了精准,科学界对生命的认知非常有限。
就像人工智能学写诗,为什么特别难?不光是难在理解词句和语法,更难的是诗还有特别的意境。
今天人类用基因元件重构生物学功能的水平,恐怕还比不上人工智能学写诗,所以合成生命的成功率才这么低。
怎么办呢?最简单粗暴的方法就是,多实验,多测试。我们一般会把觉得靠谱的组装方式全都做出来,一个个测试,看看哪个有效。
的确有很多研究就是这么做出来的,但多少有点撞大运的意思,因为生物自由度太高了。
就只“开关”这个基因元件,它光类型有上千种,每种类型又有不同的强度,又可以被放到不同的基因位点上。如果完全没有先验知识,你可能想到,这个排列组合方式几乎是无穷尽。
简单算一下,如果要从头开始设计一个蛋白质,假设组成它的氨基酸只有100个,组合方式也有20的100次方之多,这个数字远远超过了宇宙中原子的数目。
也就是说,如果粗暴地多尝试,也许试了无数种可能也找不到正确的装配方案。
怎么能提高合成生命的成功率呢?这就需要结合计算机科学,也就是我们说的方法“数据驱动”,用计算机来模拟生命。
3. 用计算机模拟生命
人类对生命建模已经开展数十年了,但过去进展并不顺利,因为我们既没有太好的算法,也缺乏真实有效的数据。
1960年,科学家就尝试用数学模型模拟心肌细胞。2013年,欧盟还宣布要投入10亿欧元,花10年时间,用计算机完全模拟人类的大脑。但我们对大脑认识太有限,这个项目只过了2年就夭折了。
好在对心脏建模倒进展得不错。到了20世纪80年代,只需要大约30个方程式就可以模拟关键细胞的化学过程。现在几乎能建构整个心脏,模拟数十亿个细胞的跳动。
未来,我们在创造真实的细胞之前,可以通过计算机建模先创造一个虚拟的细胞,用它对猜想进行检验,然后再开始实验和测试,可以大大缩短研发周期。
麻省理工学院的合成生物学家克里斯·沃伊特(Chris Voigt),他开发了一个自动设计软件,叫Cello。它的拼写就是细胞Cell那个词,加一个字母o。它是做什么的呢?就是模拟了数字化的细胞。
有了这个软件,我们就不用花费大量人力去计算分析了,可以先把数据给到Cello。它构建一个数字模拟器,模拟代谢通路在细胞内的表现。
过去可能需要10个研究者3个月的工作,现在数据模拟一下,几分钟就干完了。
虽然,计算机模拟生命的技术还有很大发展空间,但已经可以大幅度减少我们设计生命的成本、时间和错误率。
当然对生命建模,很大程度上还要依赖科学家对生命的认知水平。现在人工智能和机器学习的发展,也给生命建模带来了新的启发。
过去10年,生物实验产生的数据集正在急剧增加,比如癌症基因组图谱已经积累了超过2.5PB的原始数据。人类微生物组项目,比如ENCODE项目从细菌中也在积累大量的数据,这些数据给我们提供分析的原材料。
有了数据,我们可以让人工智能帮用户预测合适的组装方式,还可以用机器学习分析复杂的细胞系统。
斯坦福大学的一个研究团队,他们收集了900篇论文的数据,用了一个由128台计算机组成的网络,在电脑里模拟出了一个真实的细胞,它能生长、繁殖,还能传递信号。在这个细胞里,他们可以任意编辑基因突变,观察这个细胞会如何改变。
像Amyris公司,虽然研发青蒿素的时候花了很多钱,但因为这个过程积累了大量的基因元件和对应的数据,他们构建酵母菌种的平均费用一直在下降。
青蒿素项目结束之后短短4年,他们构建一个菌种的平均费用降低了95%,注意是降低了95%不是降低到95%。
不只是Amyris,整个合成生物学领域因为数据驱动都实现了成本的大幅下降。所以从2013年开始出现了大量的创业企业,比如业内比较有名的独角兽Zymergen,在2019年2月获得了软银4亿美元的投资。
4.总结
我们用基因元件重构生物学功能并不容易,就像人工智能写诗,一不留神就是个病句、歧义、错字。这也是过去生物学发展缓慢的原因之一。现在,计算机和人工智能的数据力量是有效缩短生产周期的关键方法。
【免责声明】
1、个别文章内容来源于网络善意转载,版权归原作者所有,如侵权,请联系删除;
2、所有图片来源于网络,版权归原作者所有。如有侵权问题请告知,我们会立即处理。