
这项由加州理工学院、Mila魁北克人工智能研究所及蒙特利尔大学等多家机构联合开展的研究,于2026年4月6日以预印本形式发布在arXiv平台,论文编号为arXiv:2604.05181。感兴趣的读者可通过该编号查阅完整论文。
地球上存在着数以亿计的蛋白质分子,它们是生命运转的幕后工程师。其中一类特殊的蛋白质叫做"酶",你可以把它们理解为细胞内的精密机器,专门负责加速各种化学反应——消化食物、合成药物、修复DNA,这些都离不开酶的参与。几十亿年的进化为我们留下了数量庞大、功能各异的天然酶库,科学家们也学会了通过改造这些天然酶来完成更多任务。
但有一个根本性的瓶颈始终存在:每一轮酶工程改造,都需要一个"起点"——你至少得先找到一个对目标化学反应有一丁点儿活性的天然蛋白质,然后才能在此基础上反复优化。对于那些自然界完全没有触碰过的化学反应,这个起点根本不存在。这就好比你想学一门全新的语言,却发现世界上没有任何教材、字典或会说这门话的人——从零开始谈何容易。
这项研究的核心贡献,正是提供了一把从零开始的钥匙。研究团队开发了一个名为DISCO的深度学习模型,它能够在没有任何模板或已知催化残基信息的前提下,直接为任意化学反应从头设计出全新的蛋白质序列与三维结构。更令人振奋的是,这些设计出来的蛋白质不仅仅停留在计算机的屏幕上——它们被实际合成并测试,证明能够催化多种自然界中从未存在过的化学反应,且活性甚至超越了科学家经过多年人工进化才培育出的版本。
一、为什么设计一个新酶如此困难
要理解这项研究的价值,先得搞清楚传统方法卡在哪里。
设计一个功能性蛋白质,本质上是在解一道极其复杂的三维拼图。蛋白质由数十到数百个氨基酸组成,这些氨基酸就像不同形状的积木块,串联在一起之后会自动折叠成特定的三维形状。正是这个三维形状——尤其是蛋白质"活性口袋"里几个关键氨基酸的精确排列——决定了这个蛋白质能催化什么反应,不能催化什么反应。
以往的计算设计方法,通常采用一种"先搭骨架、再填序列"的两步走策略。第一步,用扩散模型(一种能生成新结构的深度学习方法)设计出蛋白质的三维骨架;第二步,用另一个被称为"逆折叠"的工具,根据这个骨架推算出相配的氨基酸序列。这两步是分开进行的,就像先画好房子的建筑图纸,再决定用什么材料建造。
这种分离式策略存在两个本质缺陷。其一,既然序列设计发生在骨架已经固定之后,那么在骨架形成的关键阶段,模型就无法利用"这个序列好不好"的信息来引导骨架生成,两者无法相互促进。其二,也是更致命的一点,对于真正全新的化学反应,科学家往往根本不知道活性口袋里需要哪些关键氨基酸、它们应该摆放在什么几何位置,所以根本无法给骨架生成提供任何化学层面的指导——这种被称为"theozyme"(理论酶)的先验设计,对于机制未明的新反应来说是不可能完成的任务。
DISCO的出现,从根本上绕开了这两个障碍。
二、DISCO是如何工作的——序列与结构的同步舞蹈
DISCO这个名字是"用于序列结构协同设计的扩散模型"的英文缩写(DIffusionforSequence-structureCO-design)。理解它的工作原理,可以把它与传统的两步走方法做一个对比。
传统方法像是先雕刻好一个石膏模具,再往里倒入液体材料成型——两个步骤泾渭分明,互不干扰。DISCO则更像是一位雕塑家同时用双手塑造一件作品:左手在捏形状,右手在选材质,两只手时刻感知对方的动作并做出调整,最终两者和谐统一。
具体来说,DISCO使用两种不同的"噪声-去噪"过程来同时处理蛋白质的两种属性。对于三维坐标(结构),它使用连续扩散过程:从一团随机散布在空间中的原子坐标开始,逐步去除噪声,使原子归位。对于氨基酸序列,它使用离散遮蔽扩散过程:从一串全部被遮盖的氨基酸位置开始,逐步揭开每个位置应该填入哪种氨基酸。这两个过程并行运行,在一个统一的神经网络中共同演化。
支撑这一切的理论基础来自一个巧妙的数学证明:只要在训练时对两种模态独立施加噪声,那么最终学到的模型就能等价地学习到两者联合分布的逆过程。换句话说,不需要专门设计任何特殊的多模态损失函数,用最自然的方式分别训练两种损失,就能得到一个真正的联合生成模型。
DISCO的骨干架构大量借鉴了AlphaFold3的设计,包括其原子级别的注意力机制和Pairformer模块,但做了若干针对性改动。最重要的是,去掉了需要多序列比对(MSA)的模块——因为在生成过程中,蛋白质序列本身就在不断变化,根本无法实时计算MSA——转而引入了一个冻结的蛋白质语言模型DPLM来提供进化信息。整个模型拥有8.88亿个参数,其中2.35亿个参数参与训练,在32块L40SGPU上训练了11天共16万步。训练数据来自蛋白质数据库(PDB),截止日期为2021年9月。
三、让序列和结构真正"听懂对方说的话"——跨模态循环机制
DISCO能够实现高质量协同设计的一个关键秘诀,是它独特的"跨模态循环"(cross-modalrecycling)机制。
普通的扩散模型在每个去噪步骤里,只会拿到当前时刻的噪声状态来做预测。DISCO则更进一步:在每个生成步骤中,它不仅会使用当前时刻带噪的序列和结构,还会同时使用模型对"最终干净状态"的当前最佳猜测——即它目前认为最终序列和最终结构应该是什么样子的预测值。
这四份信息(当前噪声序列、当前噪声结构、预测的干净序列、预测的干净结构)都会被编码并融入到每一步的生成过程中,让模型在塑造结构时能参考序列信息,在优化序列时能参考结构信息,形成一种双向实时反馈的循环。从干净结构预测中提取的距离图还会被直接注入到对表示之中,为空间关系提供持续的几何约束。
在推断策略上,DISCO还解决了一个让研究团队颇为头疼的问题:标准的遮蔽扩散推断有一个硬性限制——一旦某个位置的氨基酸被揭开,就再也不能更改,即使这个选择事后证明是错的。这就像你在填写一份不能涂改的答卷,一旦落笔就无法纠错,这对于需要全局协调的蛋白质设计来说是致命的。
研究团队引入了"路径规划"(pathplanning)方法来解决这个问题:在每个序列生成步骤中,不仅允许揭开新的位置,还允许重新遮盖一部分已经揭开的位置,让模型有机会修正之前的错误判断。与此同时,他们还设计了一种"熵自适应温度"机制:在生成早期,对那些过于自信的氨基酸预测施加一定的随机扰动,防止模型过早锁定错误的局部最优解,从而显著提升最终的协同可设计性。
这些推断技巧的重要性不可小觑:使用相同的模型权重,仅靠改变推断策略,协同可设计性指标就能从16%飙升到88%。
四、任意分子都能作为设计条件——STUDIO-179基准测试
DISCO的另一个核心能力是以任意生物分子作为条件来设计蛋白质。无论是小分子药物、金属辅因子、核酸序列还是反应中间体,只要能提供原子坐标和键合信息,DISCO就能围绕它设计出配套的蛋白质。
为了系统评估这种能力,研究团队创建了一个全新的基准数据集,命名为STUDIO-179。这个数据集涵盖179种天然和非天然配体,横跨催化、制药、发光和传感等多个应用领域,包括极端刚性分子(如污染物四氯二苯并二噁英)、大型柔性分子(如辅酶Q10)以及金属/金属簇(如四铁四硫簇[4Fe-4S]),可谓对条件生成能力的全方位压力测试。
评价标准是"协同可设计性",定义为:用蛋白质折叠软件Chai-1重新折叠生成的序列后,折叠结果中蛋白质骨架与设计骨架的RMSD(均方根偏差)小于2埃,且所有配体质心位置的RMSD也小于2埃——也就是说,不仅蛋白质本身要折叠正确,配体也要停留在设计好的位置。
在179个配体中,DISCO在178个上都取得了最高比例的多样化且协同可设计的复合物,这一表现远超所有基准方法,包括RFDiffusion3、BoltzGen和RFDiffusionAll-Atom。
更能说明问题的是一些定性观察。DISCO设计的活性口袋在化学上是"有意识的":口袋的疏水性与配体的亲脂性(logP值)之间存在显著的正相关(R?=0.51),这意味着模型确实学会了为疏水配体设计疏水口袋,为亲水配体设计亲水口袋,而不是随机堆砌残基。对于特定辅因子,合适的配位残基会自然涌现——比如为铜离子配位中心自动生成两个组氨酸、两个半胱氨酸和一个谷氨酸的四面体配位结构。DISCO还能在保持刚性几何的同时,探索配体的构象自由度,生成在训练集中罕见甚至从未出现过的配体构象。
通过Folddisco工具在AlphaFoldDB中搜索,研究团队发现DISCO生成的活性口袋中,超过80%(以最近5个残基为单位)在已知蛋白质结构中找不到相近的同源物(定义为无匹配或RMSD超过3埃),且生成口袋间的聚类多样性超过90%——这些都是设计真正新颖性的有力证明。
五、推断时的"方向盘"——费曼-卡茨校正器
DISCO还提供了一套精巧的推断时引导机制,被称为"费曼-卡茨校正器"(Feynman-KacCorrector,简称FKC)。
传统的"生成再筛选"策略(先大量生成候选,再筛选出满足要求的)效率低下,当目标特性非常稀有时更是近乎无效。费曼-卡茨校正器的思路是:与其被动筛选,不如主动引导——在每一步生成过程中就施加一个软约束,把采样分布向期望的目标推动。
研究团队推导了两种具体的FKC方法。第一种叫FKC-多模态(FKC-MM),允许同时对序列和结构施加联合奖励函数。以增加二硫键数量为例:二硫键需要两个半胱氨酸残基(序列信息)且这两个残基的Cβ原子必须相互靠近约3.8埃(结构信息),这种序列-结构联合约束正是单模态方法无法处理的。实验结果显示,FKC-MM生成的前2%设计中,100个氨基酸长度的蛋白质含有六个二硫键,而训练数据中仅有前0.2%的同等长度蛋白质达到这一密度——模型不仅学会了约束,还能在此约束下超越训练分布。
第二种叫FKC-特异性引导(FKC-SG),目标是设计只结合目标分子而回避结构相似"诱饵"分子的蛋白质。这通过在采样时同时运行两个模型——一个以目标分子为条件,一个以诱饵分子为条件——并让目标模型的分数占主导、诱饵模型的分数起排斥作用来实现。即使面对结构极为相近的分子对(如醛固酮与可的松,两者互为构造异构体的甾体),FKC-SG也能生成对目标和诱饵的配体质心RMSD超过6埃的蛋白质,而简单的最优N筛选方法在某些情况下甚至无法产生任何通过筛选的候选。
六、真正的考验:从零设计出能催化新反应的酶
所有这些技术成就的终极考场,是一个实验室里的真实挑战:能否用DISCO设计出真正能催化化学反应的酶?
研究团队选择了"卡宾转移反应"作为测试靶标。卡宾是一种碳原子只有两个成键的高活性化学物种,自然界中没有任何已知酶能催化这类反应。过去十几年,弗朗西丝·阿诺德(FrancesArnold)团队通过对细胞色素P450、细胞色素c和球蛋白等天然蛋白质进行大量定向进化,成功培育出能催化多种卡宾反应的人工酶,但每次都需要从一个具有初始活性的天然蛋白质出发,经历漫长的进化历程。从头设计卡宾转移酶,在此之前从未有人成功。
关键的设计决策是:不使用完整的过渡态结构,而仅以"铁卡宾前体复合物"——反应关键中间体——的DFT(密度泛函理论)计算几何结构和键合模式作为DISCO的条件输入。这体现了一种蓄意的简化:与其试图精确固定一个在真空中计算的过渡态,不如让DISCO的协同折叠机制自由探索与之兼容的构象空间。这一决策使得设计可以完全绕开"theozyme"的构建——而对于催化机制不明的反应,theozyme根本无法构建。
从约一万个DISCO生成的序列-结构对出发,经过双重折叠预测(AlphaFold3和Chai-1)、置信度指标(链pAE和ipTM)、活性口袋接触数、溶剂暴露程度、净电荷和表面疏水性等多项过滤,研究团队最终挑选出90个设计用于实验测试,没有对任何序列或结构进行后期重新设计。
这90个设计被分为四组,分别测试四种不同的卡宾转移反应。第一种是对甲氧基苯乙烯与重氮乙酸乙酯(EDA)的烯烃环丙烷化反应;第二种是1,3-二甲基咪唑-2-亚基硼烷与重氮丙酸乙酯(EDP)的B-H键插入反应;第三种是1-苯基吡咯烷与EDA的C(sp?)-H键烷基化反应;第四种是叔丁基-3-亚甲基氮杂环丁烷-1-羧酸酯与EDA的螺环丙烷化反应,这是一类在药物合成中极具价值但技术上极具挑战性的反应。
七、实验结果:超越人工进化的活性,发现全新的活性位点结构
测试结果令人振奋。
在烯烃环丙烷化反应中,最佳设计达到了72%的产率和4050的总周转数(TTN,可以理解为每个酶分子能催化多少次反应),反式/顺式非对映选择比高达99:1。这一数字超越了早期进化的P411酶(364TTN)和近期基于卟啉theozyme设计的PNC2酶(630TTN)。
B-H键插入反应的结果更为惊人:最佳设计达到了98%的产率和5170TTN,远超此前的起始点(120TTN,来自Rma细胞色素c)和实验室经多轮进化才达到的最优变体(2490TTN)。换句话说,DISCO从头设计的第一版就超越了科学家花费大量时间和精力进化出来的最终版本。
C(sp?)-H键插入是最具挑战性的反应之一,此前需要14轮定向进化才能获得满意的催化剂,且由于机制不明而无法构建theozyme。DISCO的最佳设计达到了42%的产率和2360TTN,与经历了漫长进化历程的P411-CHF催化剂的最优性能(2030TTN)旗鼓相当。
螺环丙烷化是最难的反应,活性变体数量较少,活性也相对较低,但仍有多个设计显示出可检测的活性并对映选择性高达35
