本文作者:访客

宇宙最强Alphafold3,“下海”了

访客 2024-05-27 12:18:07 4785 抢沙发

前几天,世界最强的医药模型Alphafold3发布了。

它拥有全世界最强大的分子预测能力。不仅能预测所有蛋白质结构,还能预测出蛋白质与DNA、RNA、与抗体、与小分子的相互作用。

换句话说,所有生命过程中涉及到的所有分子类型它全囊括了。并且每一项的预测准确度都碾压了同行。

就算不说是一鸣惊人,那也可以说是一览众山小了。

复旦大学复杂体系多尺度研究院院长马剑鹏评价这是一项“诺奖级的成果”。

这让我想起了之前施一公对Alphafold2的评价:“人工智能对科学领域最大的一次贡献,也是人类在 21 世纪取得的最重要的科学突破之一。”

Alphafold配得上这种等级的好评。如果说苹果在手机界创造了一个iPhone时刻,那么可以说Alphafold每一代都是生物界的iPhone时刻,每一代都非常牛逼。

并且一二代目发布后都开源,供全世界的学术研究,说是以一己之力推动生物学的进步也不为过。

不过Alphafold3出现了一丢丢变化。它并不完全开源了,而是像GPT一样有了免费版和付费版。而且它的付费版甚至不是有钱就能用了,谷歌将这个版本的Alphafold专门供给了旗下的Isomorphic Labs。后者于今年1月,宣布和诺华以及礼来两家药企合作。

换句话说,Alphafold要下海了

01

在说下海这件事之前,我们先来看看,这个业界大魔王是如何炼成的吧。

Alphafold的核心业务,正如它名字中的“fold”所表示的那样,是预测蛋白质是如何折叠(fold)的。

如果说基因是一切生命的蓝本的话,那么蛋白质就是一切生命的载体。合成细胞需要它,一切细胞活动也需要它。

它无事发生,你就一切安好。它出点故障,你就一路走好。

阿兹海默症、渐冻症、2型糖尿病以及一些癌症,直接原因都是人体内某种蛋白质的错误折叠。

蛋白质本质上是一种由多种氨基酸组成的大分子,我们可以轻易地了解到一种蛋白质的各种原子数,但却不能借此理解蛋白质的性质。

这是因为,蛋白质会折叠,折叠会带来结构上的变化。不同的结构导致不同的化学性质。

蛋白质存在四级结构。一级结构就是由多种氨基酸连成的多肽链。当这条链越来越长,就无法保持链条的结构了。

这很好理解,一根1厘米长的绳子和一根10米长的绳子,显然后者更容易折起来。折叠5,6次后的绳子,你去踢一脚,大概率是没法把它踢直的。

对应到蛋白质中,折叠其实就是多肽链的结构逐渐变稳定的过程,就像高处的水始终会向下流一样

蛋白质的二级结构在折叠的花样上就很丰富了:

α螺旋,β折叠,β转角等等。

这些折叠方式都是有规律可循的,因为它们的底层原因是化学键的形成。比如α螺旋就是一个氨基酸上的-C=O与它后边的第四个氨基酸上的-NH形成氢键。

在二级结构的基础上,多肽链会进一步地盘绕、卷曲和折叠,形成三维结构。同样的,在这个过程中会伴随着多种化学键的形成:氢键、疏水键、离子键、范德华力。

如果一个蛋白质由多条多肽链组成,那么它还会有四级结构:每条多肽链折叠形成的三级结构后聚成一个蛋白质。

蛋白质的分子量在几千到几十万不等,一个氨基酸平均分子量在110左右。粗略地算,蛋白质的氨基酸数从几十到几千。

这么多氨基酸,折叠可能会形成多少种可能的结构呢?

上世纪60年代,据美国生物学家利文索尔估计,一个蛋白质根据分子量的不同,可能的折叠方式在10^140到10^300之间。

这种量级的可能性,人类要穷尽到宇宙尽头去了。可与此同时,蛋白质自发的折叠行为几秒钟就完成了。二者之间巨大的反差被称为“利文索尔悖论”(Levinthal's paradox)

人类还能预测蛋白质结构吗?此后很长一段时间内,蛋白质结构预测都被认为是“太阳底下最难的科学问题之一”。

不过,另一个生物学家克里斯蒂安·安芬森找到了这一悖论的华点。

他在诺奖的演讲中提出猜想:有没有一种可能,氨基酸序列应该能够完全决定蛋白的结构

它被后来的科学家们称为“安芬森法则”。如果这个法则是正确的话,那么问题瞬间就简化了。一条氨基酸序列对应的无穷可能中只有一种正确答案。

这意味着,背后一定有某种折叠规律。只要找到这个规律,岂不是就能根据氨基酸序列直接得到对应的结构了?

后来的科学家们经过验证,发现“安芬森法则”在大多数情况下是准确的。只在一些特殊的情况下失效,比如1989年,德国科学家哈特尔等人发现一些蛋白质需要在特定蛋白质帮助下才能正确折叠。换句话说,氨基酸序列并不能完全决定蛋白的结构。

但是少数的反例并不影响“安芬森法则”成为结构生物学的基石。

1994年,CASP(Critical Assessment of Structure Prediction)开始举办。这是一项全球性的蛋白质结构预测比赛,每两年举办一次。举办方在每年的5月到8月发布一系列已知结构但尚未公开的氨基酸序列,参赛者通过计算机来预测这些氨基酸序列的结构,与真实结构越接近得分越高。

这些真实结构是通过实验得到,一般来说有三种方式:X射线衍射、核磁共振和冷冻电镜

但这些方法都极其耗时费钱。一个博士生读博期间能用实验搞清楚一个蛋白质的结构就不错了,而在当时这个成果足以发一篇CNS了,也就是CELL、NATURE和SCIENCE三大顶级学术期刊。

到了2005年,《科学》杂志创刊125周年之际,预测蛋白质结构依然被列为125个最具挑战性的科学问题之一。

在CASP创办后的20多年,没有一个团队能做到预测准确度超过40%,直到Alphafold横空出世。

02

在Alphafold刚出现的2018年,大哥AlphaGo夺走了所有人的眼球。他只是跟在后面的小喽啰,没有人注意,除了一群生物学家。

Alphafold在CASP13上预测的准确度达到了58%。彼时CASP已经在30%到40%之间停滞了十多年之久。

Alphafold是怎么做到的呢?

它的基本思路是,为了预测一个氨基酸序列的结构,先找到与这个序列相似的序列

比如MATV,这里每个字母都代表了一种氨基酸,那假设我们之前有冷冻电镜已经确定了MATC的结构,只有最后一个氨基酸不一样。

那么很有可能二者的结构是相似的。我们只需要了解氨基酸从V变成C可能会导致结构发生什么变化,就能准确预测出目标结构。

而氨基酸V变成C导致的结构变化的背后,就是某种蛋白质折叠的规律,Alphafold要学习的就是这种规律。

具体来说,Alphafold作为一个神经网络,首先就需要有“抓手”才行。换句话说,你得先把蛋白质结构量化成神经网络能处理的数据才行。

Alphafold用了两类“特征”来量化,一个是氨基酸之间的距离,另一个是氨基酸链的夹角

为什么选这两个呢?

我们前面提到了蛋白质的四级结构。

首先一条氨基酸链(多肽链)的主干是靠氨基酸之间的肽键连接的。

肽键由一个氨基酸的羧基(-COOH)和另一个氨基酸的氨基(-NH2)相互作用形成。

肽键是C和N之间形成的化学键,它们共享了两对电子,所以肽键是双键

一个基本的化学原理,双键是不能自由旋转的,而是会形成一个固定的平面。

那么,连续三个氨基酸就会形成两个平面,它们之间会出现一个固定的夹角,这个夹角就是特征之一。

另外一个特征,氨基酸之间的距离,挨着的俩氨基酸的距离是固定的,但其他的则不然。而是比如α螺旋那样,第n个氨基酸上的-C=O与第n+4个氨基酸上的-NH由于形成氢键,所以彼此之间距离很近。

我们有一个氨基酸的距离分布就能很好地描述经过折叠后,哪些氨基酸会挨得更近了。

结合了这两个特征,我们就能对一个蛋白质结构有比较准确的描述了。当然,如果能直接预测原子的3D坐标是最好的,但对于2018年的人类来说,这还是太难了。

创建于1971年的全球共享的蛋白结构档案库——PDB,在Alphafold刚出道那会,收录了约17万个氨基酸序列和与之对应的蛋白质结构。这17万都是实验一个一个测出来的,全人类50年的血汗啊这是。

Alphafold将这些数据用来训练卷积神经网络预测能力,能力越强,就越接近真实的折叠规律。

最终,这个神经网络会输出一个氨基酸的距离和夹角分布,然后这些数据会输入到一个生成三维结构的网络中生成蛋白质结构。

以上就是Alphafold一代目的基本原理。

它虽然在CASP一支独秀了,但58%的准确率还很难说有什么实际用处。蛋白质结构是很多研究的基础,比如设计药物,就需要根据蛋白质结构来找靶点。一个项目的基础设施如果有42%的概率出问题,那沉没成本就太大了。所以一代目其实属于是自身不行,想下海都下不了。

就在人们怀着“进步已经很大了,再过个十年就会进步到能用了”的期待时,两年后的CASP上,Alphafold来了个大的。

92.4的准确率,这就是二代目交出的答案。

这是什么概念呢?

Alphafold2的预测结果,与实验结果误差不超过一个原子。

甚至很多时候人们觉得错的不是Alphafold,而是实验……

但实验的时间是几个月甚至几年,而前者是半个小时。

如果要再谈花销,就更没得比了。

这也是为什么,Alphafold2一出现,做X射线衍射和冷冻电镜的实验生物学家会大批失业的说法会出现。

施一公评价说它是“人工智能对科学领域最大的一次贡献,也是人类在 21 世纪取得的最重要的科学突破之一”。

而nature官方的评价是“it will change everything”。

它的含金量相信无须多言了。

Alphafold2的大体思路与一代目类似,但它把中间的卷积神经网络换成了Transformer架构的Evoformer

Transformer是当下几乎所有有名有号的AI都用的架构,相比于卷积神经网络有代际优势,属于是AI界的技术迭代了。

2021年,DeepMind与欧洲分子生物学实验室的欧洲生物信息学研究所合作,AlphaFold测了35万个蛋白质结构,这包括了98.5%的人类蛋白质,并将这些蛋白质结构放到了AlphaFold-EBI数据库中。到了2022年,这个数据库中的蛋白质数超过了2亿,几乎包含了地球上所有可能存在的蛋白质

正如nature所说的那样,这个数据库改变了一切。

它就像人类基因组计划一样,为整个生物学界以及产业界提供了一个随时可以查询的数据库。以前研究的起点是用实验去测蛋白质的结构,现在是直接去数据库里查询。很多医药公司经常用Alphafold提供的蛋白质结构来研发药物

药物在人体里发挥作用,需要同受体相结合,而受体往往就是某种蛋白质。医药公司通过alphafold预测出受体的结构。知道结构后才能根据结构设计相应的化合物。比如AI制药公司英矽智能就利用alphafold2,在30天内发现了一款针对肝细胞癌的化合物。

不过仅就开发药物来说,Alphafold2还远远谈不上完美。因为它能干的是预测蛋白质的静态结构,而药物重要的是各种分子间的相互作用的动态过程,只知道结构是不够的。

中国科学院院士颜宁也曾说Alphafold2无法预测小分子药的相互作用。

但后面剧情的发展你已经知道了。

正如开头所说,alphafold3拥有全世界最强大的分子预测能力,能预测出蛋白质与DNA、RNA、与抗体、与小分子的相互作用。

这个例子中,Alphafold3就预测了蛋白质(蓝色)与RNA(紫色)以及两个离子(黄色)结合后的复合结构。

并且预测的准确度也做到了碾压一切的地步

据PoseBusters 基准集显示,蛋白质与DNA结合的准确性,目前的行业水平为28%,AlphaFold 3为65%

蛋白质与抗体结合,行业水平30%,AlphaFold 3的准确成功率达62%

在小分子领域,现在Alphafold3也成功地克服了难题,并且同样做到的准确度高于其他所有工具。AlphaFold 3在76%的情况下成功预测,而下一个最好的工具只有52%。

不仅总成绩第一,每门科目也是第一,可以说是学神中的学神了。

为什么它能预测出蛋白质复合物的结构了呢?

这得先从为什么前两代做不到说起了。

原因很简单,因为根本就没想做。它们从一开始就是纯粹的蛋白质结构预测工具,根本没考虑其他分子。它生成结构靠的是氨基酸距离和夹角,DNA、RNA或者一般的化合物根本连氨基酸都没有,当然生成不了了。

而Alphafold3的输入就不只是氨基酸序列了,还有共价键以及配体,也就是与蛋白质结合的小分子化合物。

架构中的Pairformer跟二代目的Evoformer差别不大,最大的改变是将二代目的结构模块改成了扩散模块

因此,三代目生成结构的逻辑完全变了。

以前的结构模块是根据氨基酸距离和夹角的角度来生成,DeepMind说这使得训练期间需要精心调整的立体化学来保证结构的化学合理性。而这让整个模型变得过于复杂。

Alphafold3放弃了这种方式,直接用扩散模型来预测原子坐标生成整个结构。这正是一代目想做却做不到的事儿。这种方式也就不挑分子类型了,蛋白质、DNA、RNA、化合物统统能做。

所谓扩散模块,其实就是当前AI生图都使用的扩散模型。它的基本思想是通过将图片变为纯噪声,再让模型还原图片的方式,训练扩散模型生图的能力。

这种变化与当前AI的进化方向是相同的,就像GPT这样的大语言模型,在生成一段文字过程中,只关注下一个生成什么单词,而不会有任何设定好的语法规则限制,从视觉上来说,Alphafold3的生成过程跟前两代的不一样。

前两代你会看到一根长链折来折去。而现在则是“画”。它从一团混在一团的原子开始,一步步地雕琢,最终画出分子结构,以及不同分子之间结合以后的3D结构。

Alphafold3会像它的前辈一样开放用于学术研究。谷歌开放了一个免费的平台AlphaFold Server,供全世界的科学家使用。

不过也许是因为它的实力过于强大,谷歌这回学聪明了。

他们限制了Alphafold3的访问权限,一般人会有访问次数限制,并且无法解锁全部能力

谷歌把这部分能力给了旗下的Isomorphic Labs独享。

今年1月,Isomorphic Labs就宣布和诺华以及礼来两家药企合作,其项目价值可达30亿美元。大药企认可了Alphafold3的能力。

终于到了下海的时候了。

03

AI制药这件事儿,我们曾专门做了一个视频,大家有兴趣的话可以去看看。

简单来说,AI在制药中可以辅助开发,帮研究人员筛选合适的治疗手段;还可以直接生成药物,并计算药物与目标之间的相互作用。

如果按照大分子药和小分子药分的话(大分子药是比如抗体这样分子量大的药物,小分子药则是如阿司匹林这样分子量小的化合物),用AI来生成药物主要用在小分子药。

这个事儿其实早在2012年,就有人开始做了。

比如英国的Exscientia,成立于2012年,是全球首家将AI设计药物推进到临床阶段的AI制药公司。

2015年后,海外大型药企和AI制药公司合作项目越来越多,到2018年一路增长至133起;彼时,全球AI制药领域的投资额达到高峰,较2014年增长了15倍。

但直到今天,全球有80多个进入临床的AI制药项目,却还没有一款AI设计的药物上市

现在多少是有一点泡沫破灭的意思。

那么Alphafold大魔王进场后,业界会发生什么变化呢,会加速AI制药的发展吗?

要回答这个问题,我们得抛开所有的热闹与喧嚣,正视一下Alphafold3的能力。

我们咨询了行业内的人,他们的看法是Alphafold3对大分子药,尤其是抗体药很有用,但对小分子药的作用没那么大

这是因为,抗体药本身就是蛋白质,而蛋白质本就是Alphafold的看家本领了。三代目对于蛋白质之间的相互作用的预测准确度达到了前所未有的准确度。

这对于抗体药研发的改变是非常可观的。

现在研发抗体药物,我们在确定了目标蛋白质后,需要从许多候选抗体药物筛选出能用的抗体。这个筛选过程得用杂交瘤、抗体库、单B细胞克隆等筛选技术做。这几种方式都是需要做细胞实验。

一涉及到实验,时间和成本就很难降下来。你得去买需要的材料、培育实验所需的细胞、维持实验环境等等,非常麻烦。

Alphafold3完全不需要实验,你输入目标蛋白质和候选抗体药物的序列,他直接告诉你这俩将会如何相互作用,半个小时就完事儿了。

这完全是基础设施大升级啊。

但Alphafold3在小分子药就没那样神奇了。

虽然它在小分子药上做到了二代目做不到的事情。但现在的它对于药企来说还不够。

蛋白质结构中有主链侧链之分,二者的区别反应的基团不同。

这是一个氨基酸的化学式:

中间一个碳原子,左边是氨基(-NH2),右边是羧基(-COOH)。一切与氨基和羧基反应形成的结构就是主链,它决定了蛋白质的整体结构。

比如α螺旋,第n个氨基酸上的-C=O与第n+4个氨基酸上的-NH形成氢键。

一般来说生物体内的氨基酸有20种。这20种的不同就在于R基团。它就是侧链基团,任何与它发生反应形成的结构都叫做侧链。

Alphafold3在预测主链结构上是无敌的,但在侧链上的准确度还不够。

对小分子药来说,由于本身药物的分子量小,与蛋白质的结合点位就少,所以更需要的是精确的侧链结构。

目前在侧链结构上药企更多的是用动力学模拟,这是一种根据能量计算结构的方式,靠人工计算的方式。虽然alphafold3的准确度已经是行业最高了,但神经网络这条路子相比于人工的精确度还是差一些

不过Alphafold这几年来一步一层楼的进步速度,很难让人不对他们抱有信心。

如果我们把生命比作一辆汽车,这辆车有悬挂、自动驾驶、电源等多种系统,由大量零件构成。结构生物学这几十年来,干的事儿只是搞清楚零件的形状,他们还没有能力去尝试理解这些零件是如何组成系统,造就生命。

如果有一个模型能从原子层面调控所有生物系统内部的生命活动,那不仅意味着人类造出了终极的医药AI,也意味着人类理解了生命。

Alphafold3证明了可以在统一的框架中准确预测各种生物分子系统的结构。这无疑是朝终极的方向迈出了一大步

阅读
分享

发表评论

快捷回复:

评论列表 (暂无评论,4785人围观)参与讨论

还没有评论,来说两句吧...