IQuest Research 发布 UBio - MolFM:让生物大分子模拟同时实现更高精度与更快推理
时间: 2026-03-04 23:30作者: Julie·O'Malley在 1,300–1,500 原子规模的高精度 DFT 基准上实现 SOTA 级精度,可实现最多单卡 15 万原子的吞吐。
在药物研发、蛋白构象研究、核酸功能解析等领域,分子模拟是理解生命过程的重要工具,但长期受制于「尺度-精度」矛盾:高精度量子化学方法往往只能覆盖数百原子,而更可扩展的经典力场又难以刻画复杂分子作用与非局部效应。即便机器学习力场显著提升了精度,在真实生物大分子场景仍常被三类问题卡住:公开数据以小分子为主、显式溶剂与大体系样本稀缺;长程相互作用难以被完整建模;以及大体系推理吞吐不足,难以进入稳定可用的工程流程。
近日,IQuest Research(至知创新研究院)UBio团队发布分子基础模型框架UBio‑MolFM,面向生物大分子体系的高精度模拟需求,通过数据、模型架构与训练策略的协同设计,实现了分子模型的新突破。团队构建了迄今为止最大的高精度 DFT 数据集 Ubio-Mol26,包含 1700 多万数据,分子最多达 1200 原子。数据重点覆盖溶液环境中的蛋白质、DNA/RNA 段、细胞膜块等生物大分子体系。在这个海量数据基础上,团队使用最先进的 E2FormerV2 类 transformer 的等变神经网络架构,结合显式的长程相互作用建模,在多阶段课程学习框架的加持下,实现了SOTA级精度与吞吐表现。同时,团队开源 5 百万条高质量 DFT 数据 UBio‑Protein26 5M,推动社区复现与应用,后续模型权重和推理代码也会陆续上线。
框架总览
01
本次发布:UBio-MolFM框架、
Protein26数据底座与开源复现路径
UBio‑MolFM 是一套面向真实生物体系场景的分子基础模型框架,覆盖蛋白、DNA/RNA、脂质膜及多类复合体系,并针对显式溶剂、长程耦合与大体系稳定推理进行了系统化设计。
UBio-MolFM 包含三部分:一是面向生物体系的数据底座(UBio-Mol26/Protein26),二是用于大体系推理的等变架构实现(E2Former-V2),三是支持多理论层级稳定融合的训练范式,并配套开放代码、数据与后续模型/工作流计划。
数据底座:更接近生物体系
UBio-Mol26(约 1700 万构型),覆盖蛋白、DNA/RNA、脂质膜与复合体系,包含显式溶剂,单体系规模最高可达 1200 原子,并采用统一流程生成高质量 DFT 标注(wB97M-D3)。同时开放标准化子集 UBio-Protein26 5M(5M 训练 + 0.2M 测试),训练集由 4.5M def2-SVP 与 0.5M def2-TZVPD 组成;其平均原子数超过 370,用于补足公开数据在生物大体系尺度上的覆盖缺口。
数据生成流程
数据构造上,UBio-Mol26 采用「bottom-up 枚举 + top-down 采样」的混合路线:bottom-up 系统枚举氨基酸短肽、核酸片段与脂质单元以保证基础构件覆盖;top-down 从真实蛋白结构抽取局部环境并进行溶剂化与化学封端,以增强对生物场景几何与相互作用模式的覆盖。团队还给出了与 OMol25 的分布对比(t-SNE 可视化,t-SNE 为常用降维可视化方法),用于说明两套数据在特征空间中的互补关系。
t-SNE 对比:UBio-Mol26 vs OMol25
模型:E2Former‑V2(线性扩展的等变Transformer)
UBio-MolFM 采用 E2Former-V2(线性扩展的等变 Transformer),以「节点中心、硬件友好」的实现减少稀疏边操作、提升内存局部性,从而降低大体系推理开销;同时通过 EAAS 稀疏化降低 SO(3) 张量积开销,并结合 LSR 长短程建模同时处理局部相互作用与远程耦合。
E2Former-V2 架构示意
训练:三阶段课程学习(稳定融合多理论层级)
三阶段训练用于在化学覆盖、物理一致性与尺度扩展之间取得平衡:
Stage 1 使用 OMol25 进行快速能量初始化,采用能量头与独立力头并行预测以提升吞吐;
Stage 2 丢弃独立力头,力由能量梯度计算,强化能量‑力一致性;
Stage 3 融合 UBio‑Mol26 的多保真数据,通过双头结构与 force‑only 监督处理不同理论层级:SVP 与 TZVPD 分别对应不同能量头,TZVPD 仅施加力损失以绕开能量偏移,同时用 Omol25、SVP、TZVPD 8:1:1 的数据配比与相似性过滤保持训练稳定。
02
在生物大体系上同时跑出
「可引用精度」与「大规模吞吐」,
让高精度模拟更接近真实工作流
对科研与产业而言,分子基础模型要真正进入日常工作流,至少要回答两个问题:第一,在更接近真实的生物大体系上,误差是否仍可控且可验证;第二,在需要长时间轨迹与高频推理的分子动力学场景里,吞吐是否足以支撑工程使用。UBio-MolFM 的价值在于,它把这两件事放在同一套评测与工程约束下并行推进。
外推精度:1,300–1,500 原子规模上精度显著领先
团队构建了 1,300–1,500 原子规模外推测试集,并对比 MACE-OMol 与 UMA-S-1p1(使用官方代码与官方 checkpoint,评测设置保持官方一致)。测试集覆盖蛋白质优化、DNA 优化、RNA 优化、蛋白质 MD 等多类任务,样本数与平均原子数在文档中给出了明确统计:例如蛋白质优化 1,010 样本、平均 1,524.9 原子;RNA 优化 505 样本、平均 1,467.4 原子。
外推测试集统计
在代表性结果(蛋白质优化)中,UBio-MolFM (S3) 的相对能量 MAE 为 8.68 meV/100 atoms,显著优于 MACE-OMol 的 76.94 与 UMA-S-1p1 的 83.45;力 MAE 为 16.77 meV/Å,也显著低于 MACE-OMol 的 39.29 与 UMA-S-1p1 的 42.84。
代表性结果(蛋白质优化;相对能量与ΔE单位为meV/100 atoms,力单位为meV/Å)
团队同时给出了阶段性判断:蛋白质任务上能量与力误差显著降低;DNA 任务仍有提升空间,已明确为后续数据扩展的重点方向。
物理一致性:从溶剂结构、环境敏感构象到金属配位,验证「像物理」的关键细节
生物体系里,很多「看上去像细节」的物理量,恰恰决定了模型能否用于解释与预测。UBio-MolFM 在文档中给出了多组物理一致性验证:
在纯水与 0.15 mol/L NaCl 溶液中,模型能够重现 RDF 结构与配位数,用溶剂统计量验证基本液体结构是否合理。
水的 RDF
在环孢素 A(CsA)体系中,模型能保持环境敏感构象:水中维持开放态、真空中维持闭合态,验证其对溶剂化环境变化的响应是否符合物理直觉。
CsA 水中构象
CsA 真空构象
在 RNA 1L2X + Mg²⁺ 系统中,模型重现 Mg–O 距离与角分布,体现对金属离子配位几何的刻画能力。对于核酸结构稳定性与功能相关研究,这类能力往往是「能不能用」的分水岭。
RNA Mg2+ 配位
推理吞吐:在1k–50k 原子范围内实现约4× 提升,把「大体系计算」从偶发实验推向可重复流程
在单卡 H100 上,UBio 团队对 MolFM-S3 与 UMA-S/UMA-M、MACE-OMol、eSEN、E2Former-V1 等等变模型做了推理吞吐测试(1k–100k 原子,保守力计算)。结果显示:在 1,000 原子规模下,MolFM-S3 为 61 steps/s,对比 UMA-S 的 16、MACE-OMol 的 8、E2Former-V1 的 12;在 10,000 原子规模下,MolFM-S3 仍有 6.10 steps/s,而多种对比模型已出现 OOM。单卡可实现至多 15 万原子的推理。
在 1k–50k 原子范围内,MolFM-S3 相对 UMA-S 约 4× 吞吐提升;在 100k 原子规模下,除 UMA-S 外大多数模型出现 OOM,UBio-MolFM 由于显式建模长程作用也未能幸免,这也提示了下一步的明确方向:探索更好的长程相互作用建模方式,进一步降低显存开销。
综合外推精度、物理一致性与吞吐表现,UBio-MolFM 的定位更接近「生物体系高精度模拟底座」:一方面把可验证的生物体系模拟推进到更真实的尺度(1,300–1,500 原子),另一方面通过 UBio-Mol26 与 E2Former-V2 的协同设计,使模型能够同时处理生物结构、溶剂化与金属配位等关键相互作用,从而为药物发现、蛋白构象动力学、核酸功能研究等提供统一的建模基础。
*头图来源:至知研究院
极客一问
你如何看待 UBio - MolFM ?