2024年诺贝尔化学奖:物理与人工智能的融合,突破蛋白质结构研究瓶颈问题

作者:赵蕴杰 时间:2024-10-10 点击数:

2024年诺贝尔化学奖揭晓,将荣耀赋予了三位交叉学科领域的顶尖科学家。一半授予华盛顿大学的David Baker“以表彰在计算蛋白质设计方面的贡献,完成了几乎不可能的任务,构建了大量全新的蛋白质”。另一半则共同授予DeepMind公司的Demis Hassabis和John M. Jumper,“以表彰他们在蛋白质结构预测方面的成就,解决了一个50年来的难题--预测蛋白质的复杂结构”。这不仅仅是一项化学成就,更是物理学与人工智能技术交叉融合的成果。


物理学视角下的蛋白质:化学结构与生物功能的桥梁

蛋白质分子是生命有机体的核心软物质生物分子,有能量存储、催化反应、生物代谢、分子运输、病毒防御和结构支持等重要的生物学功能,其功能完全依赖于精确的三维结构。自20世纪起,科学家们就开始探索如何通过氨基酸序列预测蛋白质的三维结构,然而这一问题的复杂性远超预期,是物理学、化学和生物学交叉学科领域的重大挑战。蛋白质分子通过氨基酸之间脱水缩合形成多肽链并折叠为功能态三维结构。螺旋结构和β折叠结构是常见的蛋白质二级结构单元,通过无规卷曲和相互作用连接构成稳定的蛋白质三级结构。蛋白质折叠涉及多种物理过程,如静电等相互作用力,结构的热力学稳定性和动力学过程等。蛋白质折叠过程和物理机理的理解有助于理解其化学结构特征,可以从分子水平理解蛋白质的生物学功能。

蛋白质结构预测中的物理建模

诺贝尔奖获得者Anfinsen提出,蛋白质的天然态构象是其自由能最低的状态,这一物理理论为蛋白质结构预测奠定了基础。蛋白质结构预测的关键问题主要分为两个步骤:(1) 构象采样,生成候选的蛋白质三维结构;(2) 构象评估,利用能量函数对采样的结构进行排名,筛选出接近天然态的结构。


蛋白质结构的自由度很大,无法通过全空间构象搜索找到正确的折叠结构。例如,假设一个蛋白质由100个氨基酸组成,每个氨基酸有3种可能的构象,所有构象的组合为3100。如果每秒检查一个构象,计算时间将超过宇宙的年龄。蛋白质折叠并不是随机完成的,而是通过物理机理缩小搜索空间,快速找到最低自由能的稳定结构。为解决这一问题,科学家发展了多种采样策略。基于牛顿力学的分子动力学模拟通过计算物理相互作用和自由能来确定折叠过程中的近天然态结构;同源建模在蛋白质实验结构中搜索相似的同源序列,利用相似序列的实验结构搭建目标蛋白结构;穿线法建模则通过“序列-结构”对齐,寻找合理的折叠构象。在结构评估阶段,引入的“折叠漏斗”能量模型将蛋白质的折叠过程类比为沿着自由能降低的路径滑向最低点,从而逐步接近稳定的天然态构象。这一物理过程为理解蛋白质结构提供了强有力的理论支持。

物理与AI的交叉融合助力蛋白质结构研究

AlphaFold的首次突破。2018年,AlphaFold在第13届CASP竞赛中脱颖而出,展现了AI在蛋白质结构预测中的潜力。AlphaFold采用了基于深度学习的无模板预测策略,结合多序列比对和蛋白质结构的空间信息,将能量最低的构象确定为预测结果。AlphaFold在复杂蛋白质结构的预测中与实验结果仍有差距。


AlphaFold2的重大进展。为进一步提升蛋白质结构预测精度,DeepMind团队重新设计了AlphaFold的架构,AI学习中加入了蛋白质的序列进化与空间结构等物理特征,采用迭代优化策略使预测结果的精度大幅提升。在2020年的第14届CASP竞赛中,AlphaFold2正确预测了大部分蛋白质单体的结构,达到接近实验数据的精度。AlphaFold2的成功证明了物理建模与AI技术结合的巨大潜力。

设计全新蛋白质。如果把生命体视为精密的仪器,蛋白质就是仪器内部的精巧齿轮,承担着生命活动的关键作用。蛋白质设计的主要科学挑战是创造同时具有高亲和力和特异性的蛋白质分子。David Baker是华盛顿大学物理系的兼职教授,他领导的蛋白质设计研究所发展了集成人工智能和基于物理学力场模型的Rosetta,可以同时考虑结构的几何互补,相互作用,结合自由能等物理特征,可以设计出结合任何特定分子的新型蛋白质,应用于纳米材料、微型传感器和药物研发等工业领域。

从蛋白质到RNA:物理挑战与机遇

RNA是生命体中另外一个重要的软物质生物分子。2024年诺贝尔生理学或医学奖授予了科学家Victor Ambros和Gary Ruvkun,表彰他们发现了microRNA及其在转录后基因调控中的作用。该发现揭示了RNA在生命体基因调控中的关键功能,也为后续的RNA相关研究奠定了重要基础。

深入理解RNA的生物学功能需要知道其精确的三级结构。然而, RNA自身结构具有较大的柔性特征, 通过X射线晶体衍射、NMR或冷冻电镜解析RNA分子结构需要花费大量的时间和财力,目前已知的RNA实验结构约为蛋白质实验结构的百分之一,RNA相关的实验结构数据增长十分缓慢。鉴于实验测定RNA结构的复杂性与局限性, 通过理论预测RNA复杂系统结构是目前迫在眉睫的需求。

RNA结构中的物理问题与蛋白质存在显著区别。RNA分子依赖于碱基配对、碱基堆积和静电相互作用等维持稳定的结构;RNA分子主链旋转角更多,具有更多的自由度和更高的分子柔性;RNA分子已知实验结构较少,AI较难利用有限的RNA结构数据学习到有用的特征。2024年的诺贝尔生理学或医学奖、物理学奖和化学奖分别授予了RNA,AI和结构预测的前沿研究。物理学家们在向交叉学科研究的前沿迈进,利用AI结合物理模型预测RNA复杂系统结构是目前交叉学科中最具挑战性的科学问题之一,我们需要用全新的视角攻克其中的物理瓶颈问题。

华大物院党委融媒体中心

华大物院团委宣传中心

作 者|赵蕴杰

责 编|贾一翀

审 校|俞云伟


必一运动·(B-sports)官方网站 地址:湖北省武汉市洪山区珞喻路152号 联系电话:027-67867939 邮编:430079