400-0755-639
联系微信客服
学术文献
三叶兴科为医学诊断、治疗以及医药行业的发展注入了新的活力,我们是您研发工作中值得信赖的伙伴!
首页 学术文献 Nature Biotechnology | 蛋白质结构预测的关键转向:从“最可能构象”到“可被实验验证的构象集合”

Nature Biotechnology | 蛋白质结构预测的关键转向:从“最可能构象”到“可被实验验证的构象集合”

来源:墨克生命科学 发表时间:2026-07-02 阅读:0

6月29日,Nature Biotechnology的研究报道“Experiment-guided AlphaFold3 resolves measurement-consistent protein ensembles”,试图解决 AlphaFold3 的一个核心短板:它很擅长给出高精度结构,却常常把动态蛋白压缩成一个“最可能”的静态构象。

这听起来像是技术细节,但它背后其实是结构生物学的一个根本问题:生命体系中的蛋白质不是冻住的雕塑,而是在环境、配体、晶体接触、复合物状态和热运动中不断切换构象的分子机器。问题是,AlphaFold3 能否不仅预测结构,还能在核磁共振(nuclear magnetic resonance, NMR)、X射线晶体学(X-ray crystallography)和冷冻电镜(cryo-electron microscopy, cryo-EM)数据的“指挥”下,生成与实验测量一致的构象集合(conformational ensemble)?
这项研究给出的答案是:可以,而且效果相当值得认真讨论。

结构预测的下一道门:不是更像,而是更“可被实验解释”

AlphaFold 系列模型的成功,很大程度上来自这样一个事实:蛋白质序列中的氨基酸共进化信号(co-evolutionary signals)可以帮助推断空间接触关系。AlphaFold3 进一步把预测范围扩展到更复杂的生物分子相互作用,已经接近许多实验结构的准确度。

但问题也随之出现:AlphaFold3 的训练目标,本质上倾向于预测一个“最可能结构”。这对稳定、单一构象的蛋白非常有效;但对那些本来就存在多个构象状态的蛋白而言,这种预测会把动态性“平均掉”或“压扁”。

真实实验并不总是只看到一个构象。NMR 的核 Overhauser 效应(nuclear Overhauser effect, NOE)反映的是原子间距离信息;X射线晶体学中的电子密度(electron density, ED)可能包含多个交替构象(alternate conformations, altlocs);cryo-EM 的静电势图(electrostatic potential map, ESP map)常常来自复杂复合物的平均信号。也就是说,实验本身看到的经常是“多个状态的投影”,而不是一个唯一答案。

这项研究的核心思路是:把 AlphaFold3 当成一个由序列条件化的结构先验(sequence-conditioned structural prior),再把实验数据作为似然项(likelihood),在扩散模型(diffusion model)的反向采样过程中加入梯度引导(gradient-based guidance)。通俗地说,不是让 AlphaFold3 自己闭门造车,而是在每一步生成结构时问一句:这个构象集合能否解释实验观测?

NMR 给出的第一道考题:泛素的 1212 条距离约束

研究人员首先用泛素(ubiquitin)作为 NMR 结构确定的基准测试对象。泛素只有76个氨基酸,是结构生物学中的经典模型蛋白。传统 NMR 结构解析通常依赖 NOE 距离约束,再通过分子动力学(molecular dynamics, MD)寻找满足约束的构象集合。但这种方法可能计算成本很高,甚至小蛋白也可能需要数天。

研究人员让 AlphaFold3 接收 NOE 距离约束作为引导,生成实验一致的构象集合。结果非常直观:在总计 1212 条距离约束中,传统 PDB 结构集合 1D3Z 的约束违反比例为 24.9%,中位违反幅度为 0.39 Å;未引导的 AlphaFold3 约束违反比例为 26.5%,中位违反幅度为 0.34 Å;而 NOE 引导后的 AlphaFold3 约束违反比例下降到 15.7%,中位违反幅度降至 0.20 Å

这组数字有两个含义。第一,AlphaFold3 原始预测并不天然等于实验结构集合,甚至在这项指标上略差于传统 NMR 结构。第二,只要把实验数据引入生成过程,模型就能明显减少与实验约束的冲突。

更重要的是,这不是通过单纯“调一个结构”实现的,而是通过生成一组更异质(heterogeneous)的构象来实现的。这点很关键,因为许多 NOE 信号本身可能来自多个构象的平均。一个构象解释不了的距离关系,可能需要一组构象共同解释。

在泛素的 1212 条 NOE 距离约束中,NOE 引导后的 AlphaFold3 将约束违反比例从未引导模型的 26.5% 降至 15.7%,中位违反幅度从 0.34 Å 降至 0.20 Å

动态性不是装饰,而是结构的一部分

研究人员进一步引入了 N-H 键序参量(N-H order parameter, S²)作为独立验证。S² 是 NMR 自旋弛豫(spin relaxation)中常用来描述局部运动幅度的指标,数值越低,说明局部越柔性;数值越高,则说明越刚性。

传统 PDB 结构集合和未引导 AlphaFold3 都倾向于给出过于刚性的构象。NOE 引导后的 AlphaFold3 能更好地复现实验观察到的柔性与结构区域差异。进一步加入 S² 引导后,模型与实验 S² 的相关性达到 r = 0.93,误差指标 q = 0.06;作为比较,既往经过结构与动力学共同拟合的 PDB 集合 1XQQ 的相关性为 r = 0.87,q = 0.04

如果一个结构模型在静态形状上看起来很漂亮,但不能解释实验测到的局部运动,它到底算不算“正确”?这项研究实际上推动了一个更严格的评价标准:结构模型不仅要长得像,还要能解释测量值,尤其是那些反映动态性的测量值。

91个NMR案例:从个案成功到系统性改善

为了避免只在泛素上“讲故事”,研究人员又测试了两个基准集:8个已知 AlphaFold3 容易预测错误的肽段,以及来自100蛋白 NMR 光谱数据库中的83个蛋白子集。合计 91个案例

结果显示,与 PDB 中已有结构集合相比,NOE 引导的 AlphaFold3 在 70/91个案例中改善了距离约束满足情况,约为 77%。作为对照,未引导 AlphaFold3 只有 15个案例优于 PDB 结构集合,约为 17%。更直接的是,NOE 引导版本在所有案例中都优于未引导 AlphaFold3。

研究人员还测试了能量重加权(energy reweighting)策略。将力场预测能量整合进引导后,距离约束满足情况在 78个案例中改善,约为 87%,中位改善幅度约 20%。这说明实验数据和能量信息并不是互相替代,而是互补约束:实验告诉模型“哪些构象能解释观测”,能量项则提醒模型“哪些构象在物理上更合理”。

该研究也明确指出,这些集合应被理解为受实验数据和模型先验约束的后验结构假设(posterior structural hypotheses),而不是经过严格校准的玻尔兹曼平衡集合(Boltzmann equilibrium ensemble)。换句话说,它们更像“能解释实验的候选构象集合”,不能简单把每个构象权重解读为真实平衡态比例。

从个案到基准集:NOE 引导的 AlphaFold3 在 70/91 个案例中优于 PDB 已有结构集合;能量重加权后,改善案例达到 78/91,提示实验约束与能量约束具有互补价值。

晶体结构里的“漏网之鱼”:电子密度正在说话

X射线晶体学长期以来偏好单构象模型,但电子密度图中常常藏着局部柔性、弱密度、未建模区域和交替构象。AlphaFold3 对实验环境并不敏感,因此可能忽略配体、离子、晶体接触带来的局部构象变化。

该研究给出了多个很有代表性的案例。HSP90α 的晶体结构 6CYH 中,蛋白以二聚体形式存在,只有链A处于配体结合状态,链B邻近配体的环区构象与链A不同,而 AlphaFold3 对该区域预测较差。电子密度引导后,模型重新贴合实验密度,局部结构恢复到接近实验精度。

另一个例子是 Legionella pneumophila 蛋白 LPG2148 的晶体结构 5SUJ。该结构中两个链在同一个表面暴露环区都有缺失片段。电子密度较弱,传统模型没有明确建出这段结构。电子密度引导的 AlphaFold3 能在缺失区域提出更能解释稀疏密度的构象,而且局部实空间相关性优于普通 AlphaFold3 预测和常用的 PDBFixer 补全方式。

更有意思的是肽段建模。短肽往往高度依赖结合伙伴,AlphaFold3 单独预测时表现不稳定。论文中的一个18个氨基酸肽段来自 PAK2,并与 β-PIX 的 SH3 结构域结合。AlphaFold3 原始预测很差,但电子密度引导能把肽段重新拉回与实验密度一致的位置。这提示一个很实际的应用场景:在肽-蛋白复合物、弱密度片段和局部修模中,实验引导模型可能成为结构解析流程中的交互式助手。

从1 Å到数十 Å:交替构象不再只是人工注释

蛋白晶体结构中常见交替构象,即同一片段在电子密度中显示两个或多个位置。传统建模依赖人工经验和局部密度判断。近期已有研究整理了 PDB 中大量 alternately located segments,显示即便对分离清晰、稳定存在的交替构象,AlphaFold3 这类结构集合预测器也往往不能复现实验分布。

该研究显示,电子密度引导 AlphaFold3 能捕获主链双峰分布(bimodal backbone distribution),并在不同分离程度下有效工作:从约 1 Å 的局部分离,到 数十 Å 的大幅构象差异。对于 5NVJ 的案例,电子密度引导模型还预测出此前未建模的 altloc 构象,并更好解释了电子密度。

这点对结构生物学非常实用。许多被视作“噪音”或“弱密度”的区域,可能并不是无意义,而是蛋白真实构象异质性的痕迹。模型如果能提出多个合理构象,再由实验人员验证,就可能减少人为偏见,也能提高旧数据重分析的价值。

Cryo-EM的难题:大复合物不是简单拼图

cryo-EM 常用于研究大型蛋白复合物和纤维结构,但柔性区域分辨率往往有限。研究人员测试了胰岛素受体 IR-B、淀粉样β纤维(amyloid-β fibril)和 RIPK3 人源淀粉样纤维等案例。

在胰岛素受体 IR-B 中,研究包括对称的 apo 状态 8U4B 和结合三个 IGF2 因子的非对称构象 8U4E。AlphaFold3 倾向于把同源二聚体过度对称化(oversymmetrize),对非对称构象的大部分区域预测错误,即使对称部分也不完全准确。ESP 图引导后,模型构象与观测密度更加一致。论文中给出的密度交叉相关(density cross-correlation)显示,8U4B 中 AlphaFold3 为 0.54,ESP 引导后为 0.68;8U4E 中 AlphaFold3 为 0.29,ESP 引导后为 0.71

在 amyloid-β 纤维 9FH1 中,AlphaFold3 完全错误预测了二聚化界面和二聚体单元结构,密度交叉相关只有 0.33;ESP 引导后提升到 0.73,接近实验模型的 0.76

RIPK3 纤维的案例更进一步,因为它同时有 cryo-EM 和固态 NMR 数据。单独使用 ESP 引导时,密度拟合改善,但局部二面角和 NOE 约束仍不理想;联合使用 ESP、NOE 和二面角(dihedral angles)后,NOE 违反比例从 AlphaFold3 的 29.5% 降至 20.5%,二面角平均绝对误差从 25.1° 降至 14.7°,同时保留了合理的密度拟合。

这说明多模态实验数据不是简单叠加,而是在不同尺度上互相纠偏:cryo-EM 提供整体形状,NMR 提供局部距离和构象约束,二者结合才能避免“整体像、局部错”。

多模态启示:在 RIPK3 纤维中,联合 ESP、NOE 和二面角引导后,NOE 违反比例从 29.5% 降至 20.5%,二面角平均绝对误差从 25.1° 降至 14.7°

这项研究改变了什么?

这项工作的意义不只是“让 AlphaFold3 更准”。更准确地说,它改变了结构预测和实验数据之间的关系。

过去,结构预测常被看作实验结构的替代物;这篇论文展示的是另一种关系:预测模型可以成为实验解析的后验采样器(posterior sampler)。它不是取代 NMR、晶体学或 cryo-EM,而是把这些实验测量转化为生成构象集合的约束条件。

它的计算成本也很现实。该研究提到,典型情况下该方法只需数分钟级 GPU 时间,而传统多构象分子动力学方法可能需要数天。这意味着它有机会进入实际工作流,例如辅助 NOESY 谱解释、帮助晶体学修模、提出 altloc 候选、修复弱密度环区、改善 cryo-EM 柔性区域的原子模型,甚至对 PDB 历史数据进行大规模重分析。

但局限性同样清楚。第一,有限实验观测不能唯一决定真实构象分布,不同构象集合可能同样解释数据。第二,模型仍可能被低质量密度图、噪声或不充分约束误导。第三,当前实现主要集中在蛋白质,对配体、金属、翻译后修饰(post-translational modifications)、结构水和复杂对称性的处理仍有限。

因此,这项研究最值得关注的,不是“AlphaFold3 解决了蛋白动态问题”,而是提出了一条更稳健的路线:让生成式结构模型接受实验事实的约束,让结构不再只是一个坐标文件,而是一组可以被测量、被反驳、被继续优化的假设。

蛋白质结构预测的下一步,也许不会只是排行榜上 RMSD 再低一点,而是模型能否回答一个更接近生命真实状态的问题:在这些实验数据面前,这个蛋白到底有哪些可能的姿态?

 
 

参考文献

 
Maddipatla A, Sellam Bojan N, Bojan M, Masalitin V, Vedula S, Schanda P, Marx A, Bronstein AM. Experiment-guided AlphaFold3 resolves measurement-consistent protein ensembles. Nat Biotechnol. 2026 Jun 29. doi: 10.1038/s41587-026-03166-5. Epub ahead of print. PMID: 42374114.