IQuest Research 发布 UBio - MolFM：让生物大分子模拟同时实现更高精度与更快推理

时间： 2026-03-04 23:30作者： Julie·O'Malley

在 1,300–1,500 原子规模的高精度 DFT 基准上实现 SOTA 级精度，可实现最多单卡 15 万原子的吞吐。

在药物研发、蛋白构象研究、核酸功能解析等领域，分子模拟是理解生命过程的重要工具，但长期受制于「尺度-精度」矛盾：高精度量子化学方法往往只能覆盖数百原子，而更可扩展的经典力场又难以刻画复杂分子作用与非局部效应。即便机器学习力场显著提升了精度，在真实生物大分子场景仍常被三类问题卡住：公开数据以小分子为主、显式溶剂与大体系样本稀缺；长程相互作用难以被完整建模；以及大体系推理吞吐不足，难以进入稳定可用的工程流程。

近日，IQuest Research（至知创新研究院）UBio团队发布分子基础模型框架UBio‑MolFM，面向生物大分子体系的高精度模拟需求，通过数据、模型架构与训练策略的协同设计，实现了分子模型的新突破。团队构建了迄今为止最大的高精度 DFT 数据集 Ubio-Mol26，包含 1700 多万数据，分子最多达 1200 原子。数据重点覆盖溶液环境中的蛋白质、DNA/RNA 段、细胞膜块等生物大分子体系。在这个海量数据基础上，团队使用最先进的 E2FormerV2 类 transformer 的等变神经网络架构，结合显式的长程相互作用建模，在多阶段课程学习框架的加持下，实现了SOTA级精度与吞吐表现。同时，团队开源 5 百万条高质量 DFT 数据 UBio‑Protein26 5M，推动社区复现与应用，后续模型权重和推理代码也会陆续上线。

框架总览

本次发布：UBio-MolFM框架、

Protein26数据底座与开源复现路径

UBio‑MolFM 是一套面向真实生物体系场景的分子基础模型框架，覆盖蛋白、DNA/RNA、脂质膜及多类复合体系，并针对显式溶剂、长程耦合与大体系稳定推理进行了系统化设计。

UBio-MolFM 包含三部分：一是面向生物体系的数据底座（UBio-Mol26/Protein26），二是用于大体系推理的等变架构实现（E2Former-V2），三是支持多理论层级稳定融合的训练范式，并配套开放代码、数据与后续模型/工作流计划。

数据底座：更接近生物体系

UBio-Mol26（约 1700 万构型），覆盖蛋白、DNA/RNA、脂质膜与复合体系，包含显式溶剂，单体系规模最高可达 1200 原子，并采用统一流程生成高质量 DFT 标注（wB97M-D3）。同时开放标准化子集 UBio-Protein26 5M（5M 训练 + 0.2M 测试），训练集由 4.5M def2-SVP 与 0.5M def2-TZVPD 组成；其平均原子数超过 370，用于补足公开数据在生物大体系尺度上的覆盖缺口。

数据生成流程

数据构造上，UBio-Mol26 采用「bottom-up 枚举 + top-down 采样」的混合路线：bottom-up 系统枚举氨基酸短肽、核酸片段与脂质单元以保证基础构件覆盖；top-down 从真实蛋白结构抽取局部环境并进行溶剂化与化学封端，以增强对生物场景几何与相互作用模式的覆盖。团队还给出了与 OMol25 的分布对比（t-SNE 可视化，t-SNE 为常用降维可视化方法），用于说明两套数据在特征空间中的互补关系。

t-SNE 对比：UBio-Mol26 vs OMol25

模型：E2Former‑V2（线性扩展的等变Transformer）

UBio-MolFM 采用 E2Former-V2（线性扩展的等变 Transformer），以「节点中心、硬件友好」的实现减少稀疏边操作、提升内存局部性，从而降低大体系推理开销；同时通过 EAAS 稀疏化降低 SO(3) 张量积开销，并结合 LSR 长短程建模同时处理局部相互作用与远程耦合。

E2Former-V2 架构示意

训练：三阶段课程学习（稳定融合多理论层级）

三阶段训练用于在化学覆盖、物理一致性与尺度扩展之间取得平衡：

Stage 1 使用 OMol25 进行快速能量初始化，采用能量头与独立力头并行预测以提升吞吐；

Stage 2 丢弃独立力头，力由能量梯度计算，强化能量‑力一致性；

Stage 3 融合 UBio‑Mol26 的多保真数据，通过双头结构与 force‑only 监督处理不同理论层级：SVP 与 TZVPD 分别对应不同能量头，TZVPD 仅施加力损失以绕开能量偏移，同时用 Omol25、SVP、TZVPD 8:1:1 的数据配比与相似性过滤保持训练稳定。

在生物大体系上同时跑出

「可引用精度」与「大规模吞吐」，

让高精度模拟更接近真实工作流

对科研与产业而言，分子基础模型要真正进入日常工作流，至少要回答两个问题：第一，在更接近真实的生物大体系上，误差是否仍可控且可验证；第二，在需要长时间轨迹与高频推理的分子动力学场景里，吞吐是否足以支撑工程使用。UBio-MolFM 的价值在于，它把这两件事放在同一套评测与工程约束下并行推进。

外推精度：1,300–1,500 原子规模上精度显著领先

团队构建了 1,300–1,500 原子规模外推测试集，并对比 MACE-OMol 与 UMA-S-1p1（使用官方代码与官方 checkpoint，评测设置保持官方一致）。测试集覆盖蛋白质优化、DNA 优化、RNA 优化、蛋白质 MD 等多类任务，样本数与平均原子数在文档中给出了明确统计：例如蛋白质优化 1,010 样本、平均 1,524.9 原子；RNA 优化 505 样本、平均 1,467.4 原子。

外推测试集统计

在代表性结果（蛋白质优化）中，UBio-MolFM (S3) 的相对能量 MAE 为 8.68 meV/100 atoms，显著优于 MACE-OMol 的 76.94 与 UMA-S-1p1 的 83.45；力 MAE 为 16.77 meV/Å，也显著低于 MACE-OMol 的 39.29 与 UMA-S-1p1 的 42.84。

代表性结果（蛋白质优化；相对能量与ΔE单位为meV/100 atoms，力单位为meV/Å）

团队同时给出了阶段性判断：蛋白质任务上能量与力误差显著降低；DNA 任务仍有提升空间，已明确为后续数据扩展的重点方向。

物理一致性：从溶剂结构、环境敏感构象到金属配位，验证「像物理」的关键细节

生物体系里，很多「看上去像细节」的物理量，恰恰决定了模型能否用于解释与预测。UBio-MolFM 在文档中给出了多组物理一致性验证：

在纯水与 0.15 mol/L NaCl 溶液中，模型能够重现 RDF 结构与配位数，用溶剂统计量验证基本液体结构是否合理。

水的 RDF

在环孢素 A（CsA）体系中，模型能保持环境敏感构象：水中维持开放态、真空中维持闭合态，验证其对溶剂化环境变化的响应是否符合物理直觉。

CsA 水中构象

CsA 真空构象

在 RNA 1L2X + Mg²⁺ 系统中，模型重现 Mg–O 距离与角分布，体现对金属离子配位几何的刻画能力。对于核酸结构稳定性与功能相关研究，这类能力往往是「能不能用」的分水岭。

RNA Mg2+ 配位

推理吞吐：在1k–50k 原子范围内实现约4× 提升，把「大体系计算」从偶发实验推向可重复流程

在单卡 H100 上，UBio 团队对 MolFM-S3 与 UMA-S/UMA-M、MACE-OMol、eSEN、E2Former-V1 等等变模型做了推理吞吐测试（1k–100k 原子，保守力计算）。结果显示：在 1,000 原子规模下，MolFM-S3 为 61 steps/s，对比 UMA-S 的 16、MACE-OMol 的 8、E2Former-V1 的 12；在 10,000 原子规模下，MolFM-S3 仍有 6.10 steps/s，而多种对比模型已出现 OOM。单卡可实现至多 15 万原子的推理。

在 1k–50k 原子范围内，MolFM-S3 相对 UMA-S 约 4× 吞吐提升；在 100k 原子规模下，除 UMA-S 外大多数模型出现 OOM，UBio-MolFM 由于显式建模长程作用也未能幸免，这也提示了下一步的明确方向：探索更好的长程相互作用建模方式，进一步降低显存开销。

综合外推精度、物理一致性与吞吐表现，UBio-MolFM 的定位更接近「生物体系高精度模拟底座」：一方面把可验证的生物体系模拟推进到更真实的尺度（1,300–1,500 原子），另一方面通过 UBio-Mol26 与 E2Former-V2 的协同设计，使模型能够同时处理生物结构、溶剂化与金属配位等关键相互作用，从而为药物发现、蛋白构象动力学、核酸功能研究等提供统一的建模基础。

*头图来源：至知研究院

极客一问

你如何看待 UBio - MolFM ？