视角-369IT编程

admin管理员组
文章数量:1030027

视角

Basic Information

英文标题：Towards multimodal foundation models in molecular cell biology
中文标题：迈向分子细胞生物学中的多模态基础模型
发表日期：16 April 2025
文章类型：Perspective
所属期刊：Nature
文章作者：Haotian Cui | Bo Wang
文章链接：

Abstract

Para_01

高通量组学技术的迅速发展带来了生物数据的指数级增长，通常超出了我们从中提取分子见解的能力。
大型语言模型通过将海量数据集整合到具有多种下游应用场景的联合模型中，为自然语言处理中的数据洪流问题提供了解决之道。
在此，我们设想开发多模态基础模型，这些模型将在包括基因组学、转录组学、表观基因组学、蛋白质组学、代谢组学和空间分析在内的多样化组学数据集上进行预训练。
这些模型有望展现出前所未有的潜力，用于描述细胞在广泛连续范围内的分子状态，从而促进细胞、基因和组织整体图谱的构建。
基础模型的上下文特定迁移学习可以赋能多种应用，从新型细胞类型识别、生物标志物发现和基因调控推断，到计算机模拟扰动。
这一新范式可能开启一个人工智能驱动分析的时代，这个时代有望揭示分子细胞生物学的复杂性，支持实验设计，并更广泛地极大地扩展我们对生命科学的理解。

Main

Para_01

分子细胞生物学的一个核心目标是发现并描述生物分子（如DNA、RNA、蛋白质和代谢物）之间的动态相互作用和调控。
这种全面的理解将为捕捉、模拟和预测细胞发育和状态变化的动态提供基础。
为了实现这一目标，数十年的努力集中在全细胞建模或虚拟细胞的概念上。
历史上，这些模型被构建为基于规则的子模块或常微分方程（ODEs）的混合体，其中每个子模块用于模拟一个生物过程。
例如，第一个全细胞模型是一个由28个常微分方程组成的系统，用以捕捉生殖支原体的细胞过程。
然而，这些方法通常受到动力学过度简化和常微分方程数学不稳定性的限制。
因此，现有的虚拟细胞或全细胞模型通常局限于细菌生物，并且难以完全捕捉大规模非线性相互作用的复杂性和规模，特别是在组织和细胞状态的多样化背景下。

Para_02

最近，分析技术的联合突破（例如，下一代测序、单细胞测序、冷冻电子显微镜和基于质谱的蛋白质组学；图1a）以及大规模机器学习中数据驱动计算方法的进步带来了新的机遇。
在过去的十年中，先进的高通量测序技术积累了涵盖分子生物学中心法则的深刻知识储备，包括DNA、RNA及其产生的蛋白质产物（图1b）。
通过基因组学、转录组学、蛋白质组学和其他高通量技术生成生物数据的速度继续以指数级加速。
这种快速增长的数据财富为阐明正常和病理状态下分子功能和特性提供了巨大的希望。
全球联盟的努力，如人类细胞图谱（HCA）、人类生物分子图谱计划（HuBMAP）和人类肿瘤图谱网络（HTAN），以前所未有的速度积累了横跨数百万个细胞、覆盖异质条件和数据模式的大量数据。
此外，近期大规模并行多组学测量的进步使得可以在相同细胞中测量两种甚至三种不同的模态，这促使了跨多模态数据建模的需求。
受到预训练大型机器学习模型近期突破的推动，预计计算方法将能够摄取、分析和解释各种生物数据类型或"模态"，并随着数据量的增长不断发展。

Fig. 1: Multimodal analytical technologies and their applications.

- 图片说明

◉ 各种分析技术在单细胞分辨率和空间分布上提供了丰富多样的数据。◉ 分析方法的数据可以揭示中心法则中的多个步骤。◉ 内嵌文本列出了用于多组学分析的常见测序方法。◉ 有关当前可用方法的完整列表，我们建议读者参考最近的综述。◉ Pol II指聚合酶II；scRNA-seq指单细胞RNA测序；sgRNA指单导向RNA。◉ 重要潜在应用的机会可以重建细胞动态。◉ 箭头表示这些应用的底层机制是相互关联的，使用MFMs解决一个任务可以有助于其他任务。

Para_03

因此，我们认为构建多模态基础模型（MFMs）是一种有前景的新方法，具有应对这一挑战的潜力。
具体而言，主要策略是以自监督的方式跨模态训练模型，利用大规模数据从而获取基础知识和能力，这种方法以基础模型的概念为代表。
该模型应能够接受不同的输入数据模态，并解决不同任务，例如在健康和疾病条件下表征细胞状态和基因功能，以及预测这些状态的动态变化（详见‘MFMs 的机遇’部分）。

Para_04

在接下来的部分中，我们将深入探讨 MFMs 的结构和能力。
‘多模态基础模型概述’部分进一步扩展了 MFMs 的概念及其在加速‘湿实验室闭环’中的潜在作用，推动反馈循环中的数据生成和模型构建。
‘MFMs 的机遇’部分探讨了这些模型在组织异质性表征、基因功能预测和计算机内扰动研究等领域的应用机会。
‘构建分子细胞生物学 MFMs 的方向’部分描述了构建高效 MFMs 所需的计算组件和数据要求。
‘挑战与局限性’部分概述了 MFMs 在开发和应用过程中面临的挑战和限制。

Overview of multimodal foundation models

The idea of foundation models

基础模型的概念

Para_01

基础模型是通过自监督学习方法在大规模数据集上训练的深度神经网络计算模型，因此通过迁移学习在各种下游任务中表现出强大的能力。
在自然语言处理领域，基于Transformer的基础模型（例如GPT系列和Llama系列）在海量文本语料库上进行了训练，并可以通过微调或上下文学习快速适应多种下游任务。
最近，基础模型的成功还扩展到了自然图像和视频领域，并获得了语言与图像之间的跨模态生成能力。
在分子细胞生物学的背景下，基础模型提供了一种引人注目的方法来统一我们对各种生物过程的理解。
生物基础模型的关键优势在于它们能够学习并表示细胞系统的复杂且相互关联的本质。
通过对多样化的组学数据进行训练，这些模型可以揭示孤立实验或单一模态分析中可能不明显的微妙模式和关系，从而可能揭示在更狭窄研究中被掩盖的普遍生物学原理（表1）。

Table 1 Comparison between traditional machine learning models and MFMs for molecular cell biology 表1 传统机器学习模型与分子细胞生物学中MFMs的比较

Expected characteristics and architecture

预期特性和架构

Para_01

多功能分子模型（MFMs）应能够轻松整合多种数据类型（如批量测序和单细胞测序）以及多种模态，包括转录组学、蛋白质组学、代谢组学和表观基因组学。
具体而言，该模型应以统一的自监督学习方式在不同模态上进行预训练，然后通过迁移学习支持各种生物分析。
首先，通过对涵盖多种条件、细胞状态和时间点的大规模聚合数据集进行预训练，模型将致力于学习信息丰富的表示，从而捕捉基因、转录本、蛋白质、通路及其他生物学过程的细微特性。
接下来，通过迁移学习技术（包括微调和上下文学习），这些分子嵌入被专门化以应用于多样化的预测任务。
这使得诸如时间细胞状态映射、新型细胞类型表征和扰动响应预测等应用成为可能（图1c）。

Para_02

构建基础模型的核心计算架构一直围绕着变压器展开。
变压器模型凭借其内部的注意力机制，在建模词和图像标记的语义方面表现出卓越的能力（有关变压器、注意力和标记的定义，请参见补充说明 1），并已成为最大型机器学习模型的事实标准。
因此，我们预计注意力机制能够复现生物分子间的相互作用，从而使变压器也成为所提出的生物学多功能模型的核心。
几项开创性研究已经证实了变压器在生命科学中的应用。
具有里程碑意义的研究包括用于蛋白质结构预测的 AlphaFold2 和 RoseTTA fold，以及用于新型蛋白质生成的 ESM2 和 ESM3，它们利用注意力架构有效建模蛋白质结构和氨基酸相互作用。
Enformer 使用变压器架构从 DNA 序列预测基因表达和染色质状态。
最近，变压器架构被应用于单细胞基因组学中，scGPT、GeneFormer 和 scBERT 用它来预训练单细胞 RNA 测序数据并学习细胞和基因表示。
这些研究验证了使用变压器架构对生物系统中各种分子相互作用进行建模的潜在能力。

Data-centric workflow with lab-in-the-loop

以数据为中心的工作流程，结合实验室闭环

Para_01

分子功能模型（MFMs）的潜力正在引发分子细胞生物学领域的工作流程转变。
历史上，生物学一直由假设驱动的方法主导：识别模式、生成假设、设计实验来验证这些假设，并根据结果完善理论。
尽管假设驱动的方法在历史上取得了长期的成功，但这种方法具有较强的‘学科’特异性。
例如，研究癌细胞是为了理解癌症，而研究心肌细胞则是为了理解心脏健康（图2a，左）。
这意味着一个隐含的假设，即在一个情境中获得的知识很少对另一种情境有用，这忽视了不同组织和细胞类型之间共享的生化规则和分子相互作用。

Fig. 2: Diverse data context in pretraining and iterative improvement by lab-in-the-loop.

- 图片说明

◉ a，MFMs 在丰富的背景下的生物数据上进行训练。在预训练期间可以重现跨特定条件的多样化数据，从而丰富已知和未知条件下的生物知识表示。◉ 面板中的示例场景说明了在不同细胞状态中推广基因功能的理念，这有助于在应用中推断未见功能。◉ b，模型-数据-实验，形成一个主动学习循环。◉ 这种闭环实验室通过迭代反馈不断更新 MFM 的能力以及生成的生物学假设的质量。

Para_02

现在，分子功能模型（MFMs）的出现提供了一个机会，可以提升以数据为中心的工作流程，利用预训练过程在庞大的模型参数空间中捕捉并表达复杂、非线性的生物学规则。
研究人员首先从大规模、高维度的无假设数据生成开始，然后训练一个基础模型来整合数据并将潜在知识提取为具有生物学意义的表示。
一旦模型能够忠实地再现系统（这可以通过计算机模拟实验重复验证），研究人员就可以查询基础模型以提取有关系统的宝贵见解，并推断出潜在的生物学原理。
这一工作流程预计能够以前所未有的容量和规模对生物分子系统进行精确且快速的建模。
这种以数据为中心的方法标志着分子细胞生物学领域偏离了普遍采用的假设驱动工作流程，后者通常仅通过研究特定背景得出结论。
相反，新方法基于一个前提，即存在一种共享的基础生物学知识，可以跨多种背景加以利用。
以癌症和心脏病学研究为例，这种以数据为中心的方法本质上是跨学科的；通过在大规模和多样化数据上进行训练（例如，包括癌细胞和心肌细胞），数据驱动的MFM工作流程能够获取支配细胞行为的基础原则（图2a）。

Para_03

在这个新的工作流程中，基础模型通过一种称为"环路实验室"的过程促进对生物学的数据驱动理解，其中实验实验室和计算实验室相互迭代，整合实验和计算模拟以提高实验的效率和准确性（图2b）。
具体来说，一旦基础模型被训练完成，它可以用来选择一组信息丰富的实验以在下一轮中进行探索。
例如，该模型可以预测药物在未见过的细胞系上的疗效，然后指导即将进行的实验，测试那些具有高不确定性的细胞系（这将要求模型生成概率输出）。
这些实验的结果随后被整合到模型的训练数据集中。
因此，在经过足够的迭代后，基础模型包含了一个分子细胞生物学的模拟器，为目标实验的编排提供了宝贵的指导。

Opportunities of MFMs

Para_01

通过整合多种组学测量，MFMs能够从基因到转录本再到蛋白质，构建贯穿中心法则的整体表示，阐明特定基因、细胞类型以及新颖的条件基因相互作用在动态环境中的作用。
本节重点介绍了MFMs具有特殊潜力的重要应用。

Characterizing tissue heterogeneity

表征组织异质性

Para_01

单细胞组学的最新进展使得超越经典表面标志物的细胞亚群高分辨率解析成为可能，研究人员正在积极开发技术以揭示诸如肿瘤等复杂组织内的异质性。
例如，单细胞RNA测序揭示了与治疗反应差异相关的胶质母细胞瘤内部的转录异质性。
表观基因组分析进一步根据染色质状态区分了肿瘤亚克隆，这些状态暗示了不同的细胞起源。
蛋白质组学方法也解析了功能变异性，通过飞行时间质谱流式细胞术识别出了癌症中的独特信号状态。
整合来自相同细胞的不同测量结果可以实现对过渡状态和谱系更细致的表征。

Para_02

MFMs 提供了定义细胞状态连续性的独特机会，与现有主要关注离散定义的方法形成对比。
这种建模的强大之处在于推断细胞对内部或外部刺激的过去、未来及反应。
通过学习协调嵌入，我们期望 MFMs 在情境化、比较和补全细胞状态方面真正表现出色。
为了情境化细胞状态，MFMs 擅长在训练过程中通过整合多种组学数据将细胞嵌入广阔的连续体中。
参考映射已在 Seurat (v4) 和 scArches 的研究中开创先河，其中细胞类型和其他元信息可以从丰富的细胞图谱上下文中传播到感兴趣的新细胞。
现在，除了离散的细胞类型外，MFMs 还支持连续的细胞状态描述，这可能重现细胞在发育树或疾病进展中的位置。
为了比较细胞状态，MFMs 促进了跨异构单细胞测量和在同一细胞中分别测定的组学模式之间的快速且稳健的整合。
这可以允许异构数据集的联合分析，并在健康和疾病条件下比较细胞状态。
为了补全细胞状态，针对不完整的观测，MFMs 可以生成缺失的模式以在计算机中重建完整的细胞概况。
例如，RNA 和蛋白质的代谢标记可用于测量实验模型中的动态变化，但其在临床样本中不可行。
现在，通过对这些实验数据进行训练并学习细胞状态动态，MFMs 可能通过其生成特性帮助填补缺失的模式，并预测未使用代谢标记的临床样本中的细胞命运。
这种内在能力有助于解决传统的整合难题，并利用先验知识应对当今的多组学挑战。

Predicting gene functions and regulations

预测基因功能与调控

Para_01

在生物标志物发现中，学习大规模异构疾病数据集中的统一模式可能会揭示涉及特定基因模块、蛋白质组学标志物或代谢谱的预测性多组学特征。
最近的研究表明，仅从基因组序列中预测基因功能已取得成功，并且可以使用从单细胞RNA测序数据的细胞图谱中学习的模型进行预测。
此外，添加诸如染色质可及性和甲基化等多组学背景可以改进推断。

Para_02

除了预测基因功能外，多模态模型（MFMs）在重建特定上下文的基因调控网络（GRNs）方面也具有潜力。
这一潜力主要由两个观察结果驱动：(1) 基因调控机制本质上是一个跨多组学的过程。
历史上，GRNs 主要通过实验验证的调控事件汇编而成，这些事件被记录在各种数据库中，或者通过批量转录组数据分析中的基因共表达推断而来。
然而，捕捉完整的调控机制不仅需要转录组数据，还需要中心法则中其他相关事件，例如 DNA 结合事件、RNA 的可变剪接以及翻译后蛋白质修饰。
因此，通过整合多样化的组学数据，多模态模型可以提供一种综合且更准确的视角。
例如，将基因表达与染色质可及性结合可以通过纳入顺式调控元件来揭示有影响力的调控因子。
(2) 基因调控机制本质上是特定于上下文的。
已知转录因子结合是一个高度动态的过程，具体取决于组织和条件。
MFMs 可以通过揭示特定于细胞类型、发育阶段和疾病状态的条件基因网络来应对这一挑战。
可以预期 MFMs 在大规模预训练过程中学习到一个多组学数据多样化背景下的默认调控网络，并且该模型可以通过迁移学习灵活调整，通过在不同背景下解释学习到的嵌入来阐明特定的 GRNs。
因此，MFMs 可能填补解析条件特异性 GRNs 以理解动态生物系统的关键空白。

Para_03

我们还强调了将现有基因调控网络（GRNs）的先验知识整合到分子功能模型（MFMs）中的前景方向，以及利用学习到的分子调控来更好地概括发育和时间细胞状态，这优于现有方法。
在‘理想的计算组件’部分进一步讨论了整合先验知识的潜在计算机制。

In silico perturbation

计算机模拟扰动

Para_01

在多样化的组学数据上训练的 MFMs 可能预测假设的遗传或化学扰动对细胞状态的影响。
最近，诸如 scGPT、CellOracle、Geneformer、CellOT、CPA、chemcCPA 和 GEARS 等模型在扰动学习到的细胞嵌入以预测由此产生的表达谱方面取得了初步成功。
未来的发展可以将应用扩展到转录组学之外。
通过整合多组学测量，MFMs 在扰动建模中可以更加有效。

Para_02

基于上述部分描述的能力，可以构建计算机模拟扰动：多模态融合模型（MFMs）首先可以通过整合基因表达、表观遗传学和蛋白质组学来构建完整的细胞表示。
在不同细胞类型和扰动状态下对这些嵌入进行条件化处理，将允许进行细致的扰动分析。
结合空间和时间数据集提供了进一步追踪组织和时间点影响的机会。
然后，模型可以利用学习到的通路知识和基因调控网络，预测扰动的协同下游效应，而不仅仅是转录层面的影响。
特别是随着结合单细胞测序和大规模CRISPR扰动的数据不断增加，例如Perturb-seq，多模态融合模型可以被训练以根据原始细胞特征和个体可能的扰动条件预测扰动后的响应。
需要注意的是，可能的基因扰动组合空间是指数级的：对于k个基因的敲除实验，存在种不同的组合。
因此，准确的计算机模拟扰动响应预测可以极大地加速对基因调控的理解以及新治疗方法的发现。

Towards building MFMs for molecular cell biology

Para_01

为了实现前述的潜在应用，分子细胞生物学的多模态基础模型应具备某些关键的技术特性。
我们概述了开发这些高效基础模型的设计和技术考量。

Data for training MFMs

用于训练 MFMs 的数据

Para_01

预训练多功能多模态基础模型需要涵盖批量测序、单细胞分析、空间转录组学、染色质可及性和蛋白质组学的大规模且多样化的多组学数据集。
已经存在一些有价值的多组学数据存储库，例如 HuBMAP、ENCODE、国际人类表观基因组联盟 (IHEC) 和 HCA。
然而，当前资源中针对相同细胞或样本在不同模态间进行配对测量的数据仍然有限。
配对数据由较新的测序协议生成（例如 10X Multiome、通过测序对转录组和表位进行单细胞细胞索引的 CITE-seq 以及结合抗原选择性测序分析的单细胞 ATAC 测序 ASAP-seq），以同时捕获不同的模态。
对于揭示贯穿中心法则的过程，此类配对数据在整合其他样本时将作为重要的锚点发挥关键作用。
跨物种数据集还可能提供有用的进化背景。

Para_02

单细胞测序数据在训练 MFMs 中可以发挥核心作用，因为它揭示了批量实验中无法获得的个体水平异质性。
在此我们强调未来 MFM 训练所需的数据生成与整理，并以单细胞数据的观察为例。
首先，近年来创建和共享数据的趋势日益明显。
例如，CellxGENE 服务（一个包含 HuBMAP 和 HCA 等数据的在线集合）中的细胞数量在过去一年中增加了两倍，从约 3000 万增加到 9300 万。
利用数千万规模单细胞 RNA 测序数据的基础模型已经被开发出来，我们预计公开可用数据的数量将继续增加。
然而，核心挑战在于 RNA 测序以外的数据模态。
例如，CELLxGENE 目前仅托管约 20 万个人类单细胞 ATAC-seq 数据（以及 88 万个鼠标单细胞 ATAC-seq 数据）。
展望未来，尽管单细胞 RNA 测序数据可能构成训练数据的主要部分并提供基础支持知识，但获取能够涵盖其他模态组织异质性的足够数据同样至关重要。
生成更全面的多模态数据将有助于丰富 MFMs 的训练数据集。

Para_03

从大量研究中聚合和整理数据是同样重要的一步。
这包括一些直接的努力，例如在研究之间协调元标签，还包括诸如统一质量控制和标准化等非平凡的挑战。
具体而言，还存在多模态框架模型（MFMs）本身也有助于解决这些问题的机会。

Desired computational components

期望的计算组件

Unified tokenization for multimodal data representation

用于多模态数据表示的统一标记化

Para_01

组学数据因其多样化的数据类型和从单核苷酸到完整蛋白质的不同分子分辨率带来了额外的挑战。
为了解决这一挑战，潜在的解决方案可以受到通用机器学习研究领域的启发，在不同数据类型之间构建统一的标记（补充说明 1）。
将各种数据的基本语义单元（例如自然语言中的单词、图像中的像素块以及 DNA 序列中的核苷酸）表示为共享向量空间中的标记嵌入，已成为近期统一的大规模语言模型（LLMs）在计算机视觉和人类语言领域的一种鼓舞人心的方法。
尽管对单一模态进行标记化可能较为直接（例如，相同的字节对编码标记化流程已被用于 OpenAI GPT 系列，以及生物序列建模如 DNABERT），但更大的潜力来自于跨模态统一标记表示。
具体来说，这一思想与‘早期融合’的概念相关联，该概念强调在建模的最早阶段（即 Transformer 模型的标记化阶段）整合多模态表示。
分子数据以非常不同的分辨率提供，从单核苷酸（例如下一代测序中的原始读数）到完整蛋白质，我们设想可以在多个层次上实现标记化技术。
例如，应该有低级标记作为核苷酸 k-mer 的总结，中级标记涵盖更长的模体，而高级标记则以完整基因为分辨率（图 3a）。
诸如子词标记化等技术可以将原始核苷酸或氨基酸编码为离散词汇表用于建模（这一策略已在 DNABERT-2 的最新版本中使用），而高级标记可以表示基因或蛋白质。

Fig. 3: Computational components of multimodal foundation models.

- 图片说明

◉ a，MFMs 的期望组件。该模型由多模态输入数据组成，这些数据通过混合统一标记和多层次注意力操作进行处理。◉ 可以使用各种自监督和监督学习目标来对模型进行预训练和迁移学习。◉ b，模态内和模态间注意力机制的放大模型，显示了模型中使用的多头注意力的变体。◉ 放大的面板可视化了单个头上的模态间和模态内注意力操作。◉ 密集的方块表示相应查询（Q）和键（K）对之间的注意力，而虚线方块表示未对特定查询和键计算注意力。◉ 查询、键和值（V）是变压器模型中计算的实数向量。◉ Nx 表示连续堆叠的注意力块的数量为 N。

Hybrid multilevel attention

混合多层次注意力

Para_01

如上所述，分子数据在多个尺度上自然表现出结构，从单个碱基对到基因和通路。
为了解决这一问题，具有独立局部（模态内）和全局（模态间）自注意力的混合变压器架构可以有效地建模每个生物学相关尺度上的相互作用（图3b）。
这里的模态内注意力代表相同层次标记之间的自注意力操作，例如连接基因与基因或核苷酸与核苷酸的相互作用。
全局注意力指的是连接多层次标记的跨层次操作，理想情况下生成输入数据的整体视图。
尽管多尺度注意力已经在计算机视觉的里程碑研究中得到应用，例如SwinTransformer和MultiScale ViT，但在生物基础模型中的类似想法仍有待探索。
局部注意力机制将理解特定模态内的关系，而全局注意力机制则会在更大范围内运作，建立数据模态之间的联系（例如基因-蛋白质相互作用等）。

Intramodal and cross-modal training tasks with prompts

带有提示的模态内和跨模态训练任务

Para_01

模型可以使用诸如掩码语言建模和下一个标记生成等目标，在未标记的多组学数据上进行预训练，但应用于生物学数据。
自监督学习任务可以再次分为单模态和跨模态类型。
单模态任务优化模态以重建未见数据，例如预测随机掩码的基因表达、填补缺失的蛋白质组学值或从初始细胞状态预测扰动后的反应。
除了单模态自监督学习外，我们还强调了另外两个有前景的跨模态方向：(1) 对比自监督是一种有前景的预训练方法，已在最近的视觉和语言模型中使用，其中模型通过最大化正负输入数据对之间的相似性差异进行训练。
类似地，多模态融合模型可以通过同一细胞的不同模态数据的正输入对进行训练。
(2) 可以在训练中包含多个跨模态预测任务，并且模型在执行相应任务时可以通过特定的任务标记进行指导。
例如，为了执行 mRNA 到蛋白质的预测任务，可以将任务标记 ‘’ 和 ‘’ 附加到 mRNA 测序谱的输入数据中，然后训练模型以输出蛋白质丰度的预测。
此外，这种方法可以扩展到其他任务，例如时间预测和扰动反应预测。

Para_02

此外，上述所有训练任务都可以统一在由少数提示标记控制的相同标记生成框架中（图4a）。
通过学习一些提示标记，例如模态指定、条件指定（例如，<t + 1>，<敲除>）和元控制（例如，<开始生成>），我们可以极大地扩展模型能力，并确保任务之间模型参数的最大化复用（图4a）。
此外，训练目标可能不仅限于纯自监督学习。
诸如年龄、性别和疾病状况等信息丰富的元信息通常与组织样本配对。
这些元信息可以很容易地用作监督训练信号，这标志着多模态基础模型（MFM）训练相较于通用领域大语言模型（LLM）的一个独特特征。

Fig. 4: Potential training tasks and challenges.

- 图片说明

◉ a，MFMs预训练的训练任务示例，包括重建缺失的标记、纵向（时间）生成、跨模态和条件生成。这些任务都可以用统一的标记生成方式来描述，只需使用不同的模态指定元标记和任务提示。◉ b，构建用于分子细胞生物学的MFMs可能面临的挑战。

Integration of human knowledge

人类知识的整合

Para_01

将外部知识（如通路、基因本体、蛋白质相互作用网络和文献）整合到预训练中，可以为原本纯粹数据驱动的模型提供有用的归纳偏置。

Para_02

我们重点介绍了两种可能的技术方向，特别是针对结构化和非结构化知识分别进行的。
对于结构化知识整合，当前的生物医学数据库以知识图谱的形式表示生物分子（例如基因）的结构化相互作用，将这些交互先验注入到变换器中的注意力机制中可以成为连接数据驱动和人类知识的自然桥梁。
例如，在数据库中注释有相关功能的两个基因（例如，基因本体和Reactome），可以通过图嵌入方法学习基因嵌入。
接下来，这些受知识图启发的嵌入可以用作多模态基础模型中基因标记嵌入的初始化，有可能提升预训练过程。
值得注意的是，尽管此工作流程通过基因标记初始化展示了知识图与多模态基础模型训练的结合，但类似的方法可以自然地扩展到其他标记。
对于非结构化知识整合，生物医学文献中的原始文本包含大量的非结构化知识。
最近基于检索的聊天机器人在工业和临床应用中取得了成功，其中现有的非结构化文本借助当前的大语言模型（例如BioGPT和Med-PaLM）被表示为向量嵌入的数据库。
这些知识嵌入可以附加到多模态基础模型的输入中，从而实现利用实验数据和文献知识表示对多模态基础模型的联合训练。
最近使用ProLlama的工作是这种思想的一个试点示例，其中作者引入了多任务训练和指令微调来处理蛋白质序列数据。

Challenges and limitations

Para_01

在通往分子基础模型（图4b）广泛使用的过程中，技术与监管挑战以及限制依然存在。
尽管构建用于分子细胞生物学的分子基础模型所面临的这些挑战，与通用领域中的基础模型有若干相似之处，但我们发现该领域的具体需求和潜在解决方案通常具有独特性。
我们强调以下几点考虑。

Data and computing resources

数据与计算资源

Para_01

预训练 MFMs 需要配对且对齐的多组学数据集，理想情况下包括空间分析和纵向样本。
尽管这类数据在全球细胞图谱中存在，但它们通常样本数量不足，并且分散在不同的研究中。
因此，跨联盟的全球协调对于数据收集和多功能算法的开发至关重要。

Para_02

在构建大规模基础模型时，通常会使用大量的计算资源（例如高端 GPU）来进行训练和部署。
这限制了 MFMs 的可访问性，并增加了电力消耗。
为了解决这一挑战，低资源技术对于构建环保型人工智能非常重要，同时也能极大地扩展用户对 MFMs 的可访问性。
目前，令人鼓舞的是，开源的低资源技术已经在广泛的机器学习领域引起了关注，从低秩适应（LORA）到适配器转换器（adapter-transformer）等备受推崇的工具得到了发展。
这些努力可能会很好地被继承下来，以缓解构建生物领域 MFMs 的挑战。

Para_03

合成数据作为训练 MFMs 的补充工具具有潜力，特别是在真实数据稀缺或不完整的情况下。
例如，在分子细胞生物学中，需要配对模态的数据来优化所提出的跨模态目标。
正如在‘表征组织异质性’部分提到的，此类数据集的规模确实有限。
合成数据可以帮助填补这些空白，从而实现更全面、更有效的模型训练。

Rigorous evaluation methodology

严格的评估方法

Para_01

对模型的实用性和适用性进行广泛的评估，对于实现真正的进步至关重要。
需要在标准化数据集上进行多样化的基准测试，以评估不同能力。
此类评估的例子可能包括预测细胞类型和特定发育动态、生成特定疾病的伪样本、计算机内的扰动以及其他提供生物学见解的能力。
值得注意的是，"MFMs 的机遇"部分中描述的任务也可以用于评估 MFMs 的核心能力。
然而，评估指标可能会受到作为参考标准的人类注释的限制。
例如，目前人类专家对细胞类型的注释通常基于标记基因或线性方法，这可能限制了亚型和稀有细胞类型的分类。
当使用这些注释作为评估依据时，模型会因预测的细胞簇与人类标注的细胞类型之间的高一致性（例如通过互信息度量）而被青睐。
这会在模型识别出新的细胞类型或亚簇时对其进行惩罚，因此评估指标可能恰恰违背了 MFMs 发现新生物学见解的能力。
类似的悖论也可能发生在模型预测出原本不存在于现有数据库中的新基因相互作用或药物靶点时。
这对生物分子数据分析提出了一个独特的挑战，即人类判断和注释可能是不可靠的。
因此，我们期待开发更多"客观"的、不依赖人类的指标，以改进评估过程。

Para_02

对 MFMs 的评估需要以持续且透明的方式进行。
在共享计算资源上开放排行榜和竞赛可以促进快速实验与创新。
此类努力已在 OpenProblems（）和 DREAM 挑战中率先开展，这些平台举办了大量竞赛并提供了开放数据集，以加速基于社区努力的方法开发。
我们预计这些工作将在多个方面继续扩展，包括生成标准化的训练和基准数据集、开发可信的评估指标，特别是扩大多组学数据的范围和规模。

Interpretability and hallucination risks

可解释性与幻觉风险

Para_01

尽管前景令人期待，但 MFMs 存在尚未解决的局限性，甚至可能不如传统的机器学习模型或基于规则的系统。
特别是，我们强调了可解释性和幻觉风险的问题。

Para_02

总体来说，解释大型深度学习网络具有挑战性。
对于分子细胞生物学而言，MFMs可以生成基因表达谱、预测DNA突变、识别新细胞的表观遗传特征并预测新的细胞类型。
解释某个特定基因表达为何上调，或者证明预测的基因-基因网络的准确性可能非常复杂。
最近的进展如Kolmogorov-Arnold网络显示出在梯度下降优化中提取符号函数的潜力。
这些网络可以与变压器模型集成，以增强MFMs的可解释性，为模型的预测和决策提供更清晰的解释。

Para_03

幻觉是多模态基础模型（MFMs）面临的一个重大挑战和潜在限制，最初指的是生成看似合理但实际上错误或无意义的输出。
尽管生物基础模型中的幻觉现象尚未被正式定义，我们为MFMs提出了以下事实性要求：(1) 模型的输出应基于训练数据。
(2) 输出应与上下文一致。例如，如果模型被提示生成一个CD4+ T细胞，其生成结果应具有相应的基因表达特征。
(3) 当模型无法给出准确的预测或生成时，它可以承认这一点。
诚然，满足这些要求对MFM的开发来说可能具有挑战性，尤其是第三条自我识别的要求。
解决幻觉问题的一个潜在方向是在模型预测中引入不确定性度量。
通过量化模型预测中的不确定性，可以用于识别可能的幻觉现象，并警告不确定的情况。

Open science and ethical considerations

开放科学与伦理考量

Para_01

预训练模型应该开放并可访问，同时附有清晰的说明以传达其能力、局限性和预期使用场景。
基础模型的透明性正变得越来越重要。
自然语言领域的近期努力尝试从多个重要维度评估大型语言模型的可访问性和透明性，这些维度包括数据获取、方法、使用政策、伦理风险和分配公平性等。
类似的评估维度对于生物基础模型也可能是有价值的。
通过集体努力和研究来克服这些紧迫的挑战，将是实现多模态基础模型潜力的关键。

Para_02

在生物医学场景中部署多模态模型提出了关键挑战。
需要大量患者数据集的模型需要严格的隐私、安全保护措施，以防止未经授权的访问或因数据泄露造成的危害。
必须付出巨大努力确保数据集在不同人群中具有包容性和代表性，以避免边缘化某些群体并防止模型性能偏差。
预测结果在用于患者护理之前，必须在临床队列中进行仔细验证。
已有报告指出，现有的大型自然语言模型虽然具有极大的灵活性，但也伴随着高概率的幻觉问题。
类似的担忧也可能出现在生物领域的多模态模型中。
例如，当医生根据患者的活检数据接收到推荐特定靶向治疗的建议时，确保推荐的准确性和解释其背后的逻辑至关重要。

Para_03

此外，确保模型和数据的公平获取对于推动该领域的包容性至关重要。
我们认识到需要开源和开放访问的基础设施，这些将有助于在该领域保持透明和前瞻性的视角。

A future of collective innovation

Para_01

多模态框架模型（MFMs）的发展通过整合多样化的组学数据，有望以前所未有的规模和分辨率揭示分子生物学的深刻见解。
要实现这一潜力，需要生物学家、数据科学家、人工智能研究人员和伦理学家的共同努力，以生成高质量数据、优化模型并确保可访问性。
展望未来，将MFMs整合到医学领域可能推动个性化治疗、疾病建模和药物发现等领域的创新。
这与细胞图谱（如人类细胞图谱HCA）在医学研究中已经发挥的变革性作用相呼应。
本质上，分子发现的未来将由一个充满活力、协作共进的生态系统所孕育，该系统拥有共同愿景，赋能科学界解决生物学和医学中一些最紧迫的挑战。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。原始发表：2025-04-17，如有侵权请联系 cloudcommunity@tencent 删除开发模型数据网络基础

视角

Basic Information

英文标题：Towards multimodal foundation models in molecular cell biology
中文标题：迈向分子细胞生物学中的多模态基础模型
发表日期：16 April 2025
文章类型：Perspective
所属期刊：Nature
文章作者：Haotian Cui | Bo Wang
文章链接：

Abstract

Para_01

高通量组学技术的迅速发展带来了生物数据的指数级增长，通常超出了我们从中提取分子见解的能力。
大型语言模型通过将海量数据集整合到具有多种下游应用场景的联合模型中，为自然语言处理中的数据洪流问题提供了解决之道。
在此，我们设想开发多模态基础模型，这些模型将在包括基因组学、转录组学、表观基因组学、蛋白质组学、代谢组学和空间分析在内的多样化组学数据集上进行预训练。
这些模型有望展现出前所未有的潜力，用于描述细胞在广泛连续范围内的分子状态，从而促进细胞、基因和组织整体图谱的构建。
基础模型的上下文特定迁移学习可以赋能多种应用，从新型细胞类型识别、生物标志物发现和基因调控推断，到计算机模拟扰动。
这一新范式可能开启一个人工智能驱动分析的时代，这个时代有望揭示分子细胞生物学的复杂性，支持实验设计，并更广泛地极大地扩展我们对生命科学的理解。

Main

Para_01

分子细胞生物学的一个核心目标是发现并描述生物分子（如DNA、RNA、蛋白质和代谢物）之间的动态相互作用和调控。
这种全面的理解将为捕捉、模拟和预测细胞发育和状态变化的动态提供基础。
为了实现这一目标，数十年的努力集中在全细胞建模或虚拟细胞的概念上。
历史上，这些模型被构建为基于规则的子模块或常微分方程（ODEs）的混合体，其中每个子模块用于模拟一个生物过程。
例如，第一个全细胞模型是一个由28个常微分方程组成的系统，用以捕捉生殖支原体的细胞过程。
然而，这些方法通常受到动力学过度简化和常微分方程数学不稳定性的限制。
因此，现有的虚拟细胞或全细胞模型通常局限于细菌生物，并且难以完全捕捉大规模非线性相互作用的复杂性和规模，特别是在组织和细胞状态的多样化背景下。

Para_02

最近，分析技术的联合突破（例如，下一代测序、单细胞测序、冷冻电子显微镜和基于质谱的蛋白质组学；图1a）以及大规模机器学习中数据驱动计算方法的进步带来了新的机遇。
在过去的十年中，先进的高通量测序技术积累了涵盖分子生物学中心法则的深刻知识储备，包括DNA、RNA及其产生的蛋白质产物（图1b）。
通过基因组学、转录组学、蛋白质组学和其他高通量技术生成生物数据的速度继续以指数级加速。
这种快速增长的数据财富为阐明正常和病理状态下分子功能和特性提供了巨大的希望。
全球联盟的努力，如人类细胞图谱（HCA）、人类生物分子图谱计划（HuBMAP）和人类肿瘤图谱网络（HTAN），以前所未有的速度积累了横跨数百万个细胞、覆盖异质条件和数据模式的大量数据。
此外，近期大规模并行多组学测量的进步使得可以在相同细胞中测量两种甚至三种不同的模态，这促使了跨多模态数据建模的需求。
受到预训练大型机器学习模型近期突破的推动，预计计算方法将能够摄取、分析和解释各种生物数据类型或"模态"，并随着数据量的增长不断发展。

Fig. 1: Multimodal analytical technologies and their applications.

- 图片说明

Para_03

因此，我们认为构建多模态基础模型（MFMs）是一种有前景的新方法，具有应对这一挑战的潜力。
具体而言，主要策略是以自监督的方式跨模态训练模型，利用大规模数据从而获取基础知识和能力，这种方法以基础模型的概念为代表。
该模型应能够接受不同的输入数据模态，并解决不同任务，例如在健康和疾病条件下表征细胞状态和基因功能，以及预测这些状态的动态变化（详见‘MFMs 的机遇’部分）。

Para_04

在接下来的部分中，我们将深入探讨 MFMs 的结构和能力。
‘多模态基础模型概述’部分进一步扩展了 MFMs 的概念及其在加速‘湿实验室闭环’中的潜在作用，推动反馈循环中的数据生成和模型构建。
‘MFMs 的机遇’部分探讨了这些模型在组织异质性表征、基因功能预测和计算机内扰动研究等领域的应用机会。
‘构建分子细胞生物学 MFMs 的方向’部分描述了构建高效 MFMs 所需的计算组件和数据要求。
‘挑战与局限性’部分概述了 MFMs 在开发和应用过程中面临的挑战和限制。

Overview of multimodal foundation models

The idea of foundation models

基础模型的概念

Para_01

基础模型是通过自监督学习方法在大规模数据集上训练的深度神经网络计算模型，因此通过迁移学习在各种下游任务中表现出强大的能力。
在自然语言处理领域，基于Transformer的基础模型（例如GPT系列和Llama系列）在海量文本语料库上进行了训练，并可以通过微调或上下文学习快速适应多种下游任务。
最近，基础模型的成功还扩展到了自然图像和视频领域，并获得了语言与图像之间的跨模态生成能力。
在分子细胞生物学的背景下，基础模型提供了一种引人注目的方法来统一我们对各种生物过程的理解。
生物基础模型的关键优势在于它们能够学习并表示细胞系统的复杂且相互关联的本质。
通过对多样化的组学数据进行训练，这些模型可以揭示孤立实验或单一模态分析中可能不明显的微妙模式和关系，从而可能揭示在更狭窄研究中被掩盖的普遍生物学原理（表1）。

Table 1 Comparison between traditional machine learning models and MFMs for molecular cell biology 表1 传统机器学习模型与分子细胞生物学中MFMs的比较

Expected characteristics and architecture

预期特性和架构

Para_01

多功能分子模型（MFMs）应能够轻松整合多种数据类型（如批量测序和单细胞测序）以及多种模态，包括转录组学、蛋白质组学、代谢组学和表观基因组学。
具体而言，该模型应以统一的自监督学习方式在不同模态上进行预训练，然后通过迁移学习支持各种生物分析。
首先，通过对涵盖多种条件、细胞状态和时间点的大规模聚合数据集进行预训练，模型将致力于学习信息丰富的表示，从而捕捉基因、转录本、蛋白质、通路及其他生物学过程的细微特性。
接下来，通过迁移学习技术（包括微调和上下文学习），这些分子嵌入被专门化以应用于多样化的预测任务。
这使得诸如时间细胞状态映射、新型细胞类型表征和扰动响应预测等应用成为可能（图1c）。

Para_02

构建基础模型的核心计算架构一直围绕着变压器展开。
变压器模型凭借其内部的注意力机制，在建模词和图像标记的语义方面表现出卓越的能力（有关变压器、注意力和标记的定义，请参见补充说明 1），并已成为最大型机器学习模型的事实标准。
因此，我们预计注意力机制能够复现生物分子间的相互作用，从而使变压器也成为所提出的生物学多功能模型的核心。
几项开创性研究已经证实了变压器在生命科学中的应用。
具有里程碑意义的研究包括用于蛋白质结构预测的 AlphaFold2 和 RoseTTA fold，以及用于新型蛋白质生成的 ESM2 和 ESM3，它们利用注意力架构有效建模蛋白质结构和氨基酸相互作用。
Enformer 使用变压器架构从 DNA 序列预测基因表达和染色质状态。
最近，变压器架构被应用于单细胞基因组学中，scGPT、GeneFormer 和 scBERT 用它来预训练单细胞 RNA 测序数据并学习细胞和基因表示。
这些研究验证了使用变压器架构对生物系统中各种分子相互作用进行建模的潜在能力。

Data-centric workflow with lab-in-the-loop

以数据为中心的工作流程，结合实验室闭环

Para_01

分子功能模型（MFMs）的潜力正在引发分子细胞生物学领域的工作流程转变。
历史上，生物学一直由假设驱动的方法主导：识别模式、生成假设、设计实验来验证这些假设，并根据结果完善理论。
尽管假设驱动的方法在历史上取得了长期的成功，但这种方法具有较强的‘学科’特异性。
例如，研究癌细胞是为了理解癌症，而研究心肌细胞则是为了理解心脏健康（图2a，左）。
这意味着一个隐含的假设，即在一个情境中获得的知识很少对另一种情境有用，这忽视了不同组织和细胞类型之间共享的生化规则和分子相互作用。

Fig. 2: Diverse data context in pretraining and iterative improvement by lab-in-the-loop.

- 图片说明

Para_02

现在，分子功能模型（MFMs）的出现提供了一个机会，可以提升以数据为中心的工作流程，利用预训练过程在庞大的模型参数空间中捕捉并表达复杂、非线性的生物学规则。
研究人员首先从大规模、高维度的无假设数据生成开始，然后训练一个基础模型来整合数据并将潜在知识提取为具有生物学意义的表示。
一旦模型能够忠实地再现系统（这可以通过计算机模拟实验重复验证），研究人员就可以查询基础模型以提取有关系统的宝贵见解，并推断出潜在的生物学原理。
这一工作流程预计能够以前所未有的容量和规模对生物分子系统进行精确且快速的建模。
这种以数据为中心的方法标志着分子细胞生物学领域偏离了普遍采用的假设驱动工作流程，后者通常仅通过研究特定背景得出结论。
相反，新方法基于一个前提，即存在一种共享的基础生物学知识，可以跨多种背景加以利用。
以癌症和心脏病学研究为例，这种以数据为中心的方法本质上是跨学科的；通过在大规模和多样化数据上进行训练（例如，包括癌细胞和心肌细胞），数据驱动的MFM工作流程能够获取支配细胞行为的基础原则（图2a）。

Para_03

在这个新的工作流程中，基础模型通过一种称为"环路实验室"的过程促进对生物学的数据驱动理解，其中实验实验室和计算实验室相互迭代，整合实验和计算模拟以提高实验的效率和准确性（图2b）。
具体来说，一旦基础模型被训练完成，它可以用来选择一组信息丰富的实验以在下一轮中进行探索。
例如，该模型可以预测药物在未见过的细胞系上的疗效，然后指导即将进行的实验，测试那些具有高不确定性的细胞系（这将要求模型生成概率输出）。
这些实验的结果随后被整合到模型的训练数据集中。
因此，在经过足够的迭代后，基础模型包含了一个分子细胞生物学的模拟器，为目标实验的编排提供了宝贵的指导。

Opportunities of MFMs

Para_01

通过整合多种组学测量，MFMs能够从基因到转录本再到蛋白质，构建贯穿中心法则的整体表示，阐明特定基因、细胞类型以及新颖的条件基因相互作用在动态环境中的作用。
本节重点介绍了MFMs具有特殊潜力的重要应用。

Characterizing tissue heterogeneity

表征组织异质性

Para_01

单细胞组学的最新进展使得超越经典表面标志物的细胞亚群高分辨率解析成为可能，研究人员正在积极开发技术以揭示诸如肿瘤等复杂组织内的异质性。
例如，单细胞RNA测序揭示了与治疗反应差异相关的胶质母细胞瘤内部的转录异质性。
表观基因组分析进一步根据染色质状态区分了肿瘤亚克隆，这些状态暗示了不同的细胞起源。
蛋白质组学方法也解析了功能变异性，通过飞行时间质谱流式细胞术识别出了癌症中的独特信号状态。
整合来自相同细胞的不同测量结果可以实现对过渡状态和谱系更细致的表征。

Para_02

MFMs 提供了定义细胞状态连续性的独特机会，与现有主要关注离散定义的方法形成对比。
这种建模的强大之处在于推断细胞对内部或外部刺激的过去、未来及反应。
通过学习协调嵌入，我们期望 MFMs 在情境化、比较和补全细胞状态方面真正表现出色。
为了情境化细胞状态，MFMs 擅长在训练过程中通过整合多种组学数据将细胞嵌入广阔的连续体中。
参考映射已在 Seurat (v4) 和 scArches 的研究中开创先河，其中细胞类型和其他元信息可以从丰富的细胞图谱上下文中传播到感兴趣的新细胞。
现在，除了离散的细胞类型外，MFMs 还支持连续的细胞状态描述，这可能重现细胞在发育树或疾病进展中的位置。
为了比较细胞状态，MFMs 促进了跨异构单细胞测量和在同一细胞中分别测定的组学模式之间的快速且稳健的整合。
这可以允许异构数据集的联合分析，并在健康和疾病条件下比较细胞状态。
为了补全细胞状态，针对不完整的观测，MFMs 可以生成缺失的模式以在计算机中重建完整的细胞概况。
例如，RNA 和蛋白质的代谢标记可用于测量实验模型中的动态变化，但其在临床样本中不可行。
现在，通过对这些实验数据进行训练并学习细胞状态动态，MFMs 可能通过其生成特性帮助填补缺失的模式，并预测未使用代谢标记的临床样本中的细胞命运。
这种内在能力有助于解决传统的整合难题，并利用先验知识应对当今的多组学挑战。

Predicting gene functions and regulations

预测基因功能与调控

Para_01

在生物标志物发现中，学习大规模异构疾病数据集中的统一模式可能会揭示涉及特定基因模块、蛋白质组学标志物或代谢谱的预测性多组学特征。
最近的研究表明，仅从基因组序列中预测基因功能已取得成功，并且可以使用从单细胞RNA测序数据的细胞图谱中学习的模型进行预测。
此外，添加诸如染色质可及性和甲基化等多组学背景可以改进推断。

Para_02

除了预测基因功能外，多模态模型（MFMs）在重建特定上下文的基因调控网络（GRNs）方面也具有潜力。
这一潜力主要由两个观察结果驱动：(1) 基因调控机制本质上是一个跨多组学的过程。
历史上，GRNs 主要通过实验验证的调控事件汇编而成，这些事件被记录在各种数据库中，或者通过批量转录组数据分析中的基因共表达推断而来。
然而，捕捉完整的调控机制不仅需要转录组数据，还需要中心法则中其他相关事件，例如 DNA 结合事件、RNA 的可变剪接以及翻译后蛋白质修饰。
因此，通过整合多样化的组学数据，多模态模型可以提供一种综合且更准确的视角。
例如，将基因表达与染色质可及性结合可以通过纳入顺式调控元件来揭示有影响力的调控因子。
(2) 基因调控机制本质上是特定于上下文的。
已知转录因子结合是一个高度动态的过程，具体取决于组织和条件。
MFMs 可以通过揭示特定于细胞类型、发育阶段和疾病状态的条件基因网络来应对这一挑战。
可以预期 MFMs 在大规模预训练过程中学习到一个多组学数据多样化背景下的默认调控网络，并且该模型可以通过迁移学习灵活调整，通过在不同背景下解释学习到的嵌入来阐明特定的 GRNs。
因此，MFMs 可能填补解析条件特异性 GRNs 以理解动态生物系统的关键空白。

Para_03

我们还强调了将现有基因调控网络（GRNs）的先验知识整合到分子功能模型（MFMs）中的前景方向，以及利用学习到的分子调控来更好地概括发育和时间细胞状态，这优于现有方法。
在‘理想的计算组件’部分进一步讨论了整合先验知识的潜在计算机制。

In silico perturbation

计算机模拟扰动

Para_01

在多样化的组学数据上训练的 MFMs 可能预测假设的遗传或化学扰动对细胞状态的影响。
最近，诸如 scGPT、CellOracle、Geneformer、CellOT、CPA、chemcCPA 和 GEARS 等模型在扰动学习到的细胞嵌入以预测由此产生的表达谱方面取得了初步成功。
未来的发展可以将应用扩展到转录组学之外。
通过整合多组学测量，MFMs 在扰动建模中可以更加有效。

Para_02

基于上述部分描述的能力，可以构建计算机模拟扰动：多模态融合模型（MFMs）首先可以通过整合基因表达、表观遗传学和蛋白质组学来构建完整的细胞表示。
在不同细胞类型和扰动状态下对这些嵌入进行条件化处理，将允许进行细致的扰动分析。
结合空间和时间数据集提供了进一步追踪组织和时间点影响的机会。
然后，模型可以利用学习到的通路知识和基因调控网络，预测扰动的协同下游效应，而不仅仅是转录层面的影响。
特别是随着结合单细胞测序和大规模CRISPR扰动的数据不断增加，例如Perturb-seq，多模态融合模型可以被训练以根据原始细胞特征和个体可能的扰动条件预测扰动后的响应。
需要注意的是，可能的基因扰动组合空间是指数级的：对于k个基因的敲除实验，存在种不同的组合。
因此，准确的计算机模拟扰动响应预测可以极大地加速对基因调控的理解以及新治疗方法的发现。

Towards building MFMs for molecular cell biology

Para_01

为了实现前述的潜在应用，分子细胞生物学的多模态基础模型应具备某些关键的技术特性。
我们概述了开发这些高效基础模型的设计和技术考量。

Data for training MFMs

用于训练 MFMs 的数据

Para_01

预训练多功能多模态基础模型需要涵盖批量测序、单细胞分析、空间转录组学、染色质可及性和蛋白质组学的大规模且多样化的多组学数据集。
已经存在一些有价值的多组学数据存储库，例如 HuBMAP、ENCODE、国际人类表观基因组联盟 (IHEC) 和 HCA。
然而，当前资源中针对相同细胞或样本在不同模态间进行配对测量的数据仍然有限。
配对数据由较新的测序协议生成（例如 10X Multiome、通过测序对转录组和表位进行单细胞细胞索引的 CITE-seq 以及结合抗原选择性测序分析的单细胞 ATAC 测序 ASAP-seq），以同时捕获不同的模态。
对于揭示贯穿中心法则的过程，此类配对数据在整合其他样本时将作为重要的锚点发挥关键作用。
跨物种数据集还可能提供有用的进化背景。

Para_02

单细胞测序数据在训练 MFMs 中可以发挥核心作用，因为它揭示了批量实验中无法获得的个体水平异质性。
在此我们强调未来 MFM 训练所需的数据生成与整理，并以单细胞数据的观察为例。
首先，近年来创建和共享数据的趋势日益明显。
例如，CellxGENE 服务（一个包含 HuBMAP 和 HCA 等数据的在线集合）中的细胞数量在过去一年中增加了两倍，从约 3000 万增加到 9300 万。
利用数千万规模单细胞 RNA 测序数据的基础模型已经被开发出来，我们预计公开可用数据的数量将继续增加。
然而，核心挑战在于 RNA 测序以外的数据模态。
例如，CELLxGENE 目前仅托管约 20 万个人类单细胞 ATAC-seq 数据（以及 88 万个鼠标单细胞 ATAC-seq 数据）。
展望未来，尽管单细胞 RNA 测序数据可能构成训练数据的主要部分并提供基础支持知识，但获取能够涵盖其他模态组织异质性的足够数据同样至关重要。
生成更全面的多模态数据将有助于丰富 MFMs 的训练数据集。

Para_03

从大量研究中聚合和整理数据是同样重要的一步。
这包括一些直接的努力，例如在研究之间协调元标签，还包括诸如统一质量控制和标准化等非平凡的挑战。
具体而言，还存在多模态框架模型（MFMs）本身也有助于解决这些问题的机会。

Desired computational components

期望的计算组件

Unified tokenization for multimodal data representation

用于多模态数据表示的统一标记化

Para_01

组学数据因其多样化的数据类型和从单核苷酸到完整蛋白质的不同分子分辨率带来了额外的挑战。
为了解决这一挑战，潜在的解决方案可以受到通用机器学习研究领域的启发，在不同数据类型之间构建统一的标记（补充说明 1）。
将各种数据的基本语义单元（例如自然语言中的单词、图像中的像素块以及 DNA 序列中的核苷酸）表示为共享向量空间中的标记嵌入，已成为近期统一的大规模语言模型（LLMs）在计算机视觉和人类语言领域的一种鼓舞人心的方法。
尽管对单一模态进行标记化可能较为直接（例如，相同的字节对编码标记化流程已被用于 OpenAI GPT 系列，以及生物序列建模如 DNABERT），但更大的潜力来自于跨模态统一标记表示。
具体来说，这一思想与‘早期融合’的概念相关联，该概念强调在建模的最早阶段（即 Transformer 模型的标记化阶段）整合多模态表示。
分子数据以非常不同的分辨率提供，从单核苷酸（例如下一代测序中的原始读数）到完整蛋白质，我们设想可以在多个层次上实现标记化技术。
例如，应该有低级标记作为核苷酸 k-mer 的总结，中级标记涵盖更长的模体，而高级标记则以完整基因为分辨率（图 3a）。
诸如子词标记化等技术可以将原始核苷酸或氨基酸编码为离散词汇表用于建模（这一策略已在 DNABERT-2 的最新版本中使用），而高级标记可以表示基因或蛋白质。

Fig. 3: Computational components of multimodal foundation models.

- 图片说明

Hybrid multilevel attention

混合多层次注意力

Para_01

如上所述，分子数据在多个尺度上自然表现出结构，从单个碱基对到基因和通路。
为了解决这一问题，具有独立局部（模态内）和全局（模态间）自注意力的混合变压器架构可以有效地建模每个生物学相关尺度上的相互作用（图3b）。
这里的模态内注意力代表相同层次标记之间的自注意力操作，例如连接基因与基因或核苷酸与核苷酸的相互作用。
全局注意力指的是连接多层次标记的跨层次操作，理想情况下生成输入数据的整体视图。
尽管多尺度注意力已经在计算机视觉的里程碑研究中得到应用，例如SwinTransformer和MultiScale ViT，但在生物基础模型中的类似想法仍有待探索。
局部注意力机制将理解特定模态内的关系，而全局注意力机制则会在更大范围内运作，建立数据模态之间的联系（例如基因-蛋白质相互作用等）。

Intramodal and cross-modal training tasks with prompts

带有提示的模态内和跨模态训练任务

Para_01

模型可以使用诸如掩码语言建模和下一个标记生成等目标，在未标记的多组学数据上进行预训练，但应用于生物学数据。
自监督学习任务可以再次分为单模态和跨模态类型。
单模态任务优化模态以重建未见数据，例如预测随机掩码的基因表达、填补缺失的蛋白质组学值或从初始细胞状态预测扰动后的反应。
除了单模态自监督学习外，我们还强调了另外两个有前景的跨模态方向：(1) 对比自监督是一种有前景的预训练方法，已在最近的视觉和语言模型中使用，其中模型通过最大化正负输入数据对之间的相似性差异进行训练。
类似地，多模态融合模型可以通过同一细胞的不同模态数据的正输入对进行训练。
(2) 可以在训练中包含多个跨模态预测任务，并且模型在执行相应任务时可以通过特定的任务标记进行指导。
例如，为了执行 mRNA 到蛋白质的预测任务，可以将任务标记 ‘’ 和 ‘’ 附加到 mRNA 测序谱的输入数据中，然后训练模型以输出蛋白质丰度的预测。
此外，这种方法可以扩展到其他任务，例如时间预测和扰动反应预测。

Para_02

此外，上述所有训练任务都可以统一在由少数提示标记控制的相同标记生成框架中（图4a）。
通过学习一些提示标记，例如模态指定、条件指定（例如，<t + 1>，<敲除>）和元控制（例如，<开始生成>），我们可以极大地扩展模型能力，并确保任务之间模型参数的最大化复用（图4a）。
此外，训练目标可能不仅限于纯自监督学习。
诸如年龄、性别和疾病状况等信息丰富的元信息通常与组织样本配对。
这些元信息可以很容易地用作监督训练信号，这标志着多模态基础模型（MFM）训练相较于通用领域大语言模型（LLM）的一个独特特征。

Fig. 4: Potential training tasks and challenges.

- 图片说明

Integration of human knowledge

人类知识的整合

Para_01

将外部知识（如通路、基因本体、蛋白质相互作用网络和文献）整合到预训练中，可以为原本纯粹数据驱动的模型提供有用的归纳偏置。

Para_02

我们重点介绍了两种可能的技术方向，特别是针对结构化和非结构化知识分别进行的。
对于结构化知识整合，当前的生物医学数据库以知识图谱的形式表示生物分子（例如基因）的结构化相互作用，将这些交互先验注入到变换器中的注意力机制中可以成为连接数据驱动和人类知识的自然桥梁。
例如，在数据库中注释有相关功能的两个基因（例如，基因本体和Reactome），可以通过图嵌入方法学习基因嵌入。
接下来，这些受知识图启发的嵌入可以用作多模态基础模型中基因标记嵌入的初始化，有可能提升预训练过程。
值得注意的是，尽管此工作流程通过基因标记初始化展示了知识图与多模态基础模型训练的结合，但类似的方法可以自然地扩展到其他标记。
对于非结构化知识整合，生物医学文献中的原始文本包含大量的非结构化知识。
最近基于检索的聊天机器人在工业和临床应用中取得了成功，其中现有的非结构化文本借助当前的大语言模型（例如BioGPT和Med-PaLM）被表示为向量嵌入的数据库。
这些知识嵌入可以附加到多模态基础模型的输入中，从而实现利用实验数据和文献知识表示对多模态基础模型的联合训练。
最近使用ProLlama的工作是这种思想的一个试点示例，其中作者引入了多任务训练和指令微调来处理蛋白质序列数据。

Challenges and limitations

Para_01

在通往分子基础模型（图4b）广泛使用的过程中，技术与监管挑战以及限制依然存在。
尽管构建用于分子细胞生物学的分子基础模型所面临的这些挑战，与通用领域中的基础模型有若干相似之处，但我们发现该领域的具体需求和潜在解决方案通常具有独特性。
我们强调以下几点考虑。

Data and computing resources

数据与计算资源

Para_01

预训练 MFMs 需要配对且对齐的多组学数据集，理想情况下包括空间分析和纵向样本。
尽管这类数据在全球细胞图谱中存在，但它们通常样本数量不足，并且分散在不同的研究中。
因此，跨联盟的全球协调对于数据收集和多功能算法的开发至关重要。

Para_02

在构建大规模基础模型时，通常会使用大量的计算资源（例如高端 GPU）来进行训练和部署。
这限制了 MFMs 的可访问性，并增加了电力消耗。
为了解决这一挑战，低资源技术对于构建环保型人工智能非常重要，同时也能极大地扩展用户对 MFMs 的可访问性。
目前，令人鼓舞的是，开源的低资源技术已经在广泛的机器学习领域引起了关注，从低秩适应（LORA）到适配器转换器（adapter-transformer）等备受推崇的工具得到了发展。
这些努力可能会很好地被继承下来，以缓解构建生物领域 MFMs 的挑战。

Para_03

合成数据作为训练 MFMs 的补充工具具有潜力，特别是在真实数据稀缺或不完整的情况下。
例如，在分子细胞生物学中，需要配对模态的数据来优化所提出的跨模态目标。
正如在‘表征组织异质性’部分提到的，此类数据集的规模确实有限。
合成数据可以帮助填补这些空白，从而实现更全面、更有效的模型训练。

Rigorous evaluation methodology

严格的评估方法

Para_01

对模型的实用性和适用性进行广泛的评估，对于实现真正的进步至关重要。
需要在标准化数据集上进行多样化的基准测试，以评估不同能力。
此类评估的例子可能包括预测细胞类型和特定发育动态、生成特定疾病的伪样本、计算机内的扰动以及其他提供生物学见解的能力。
值得注意的是，"MFMs 的机遇"部分中描述的任务也可以用于评估 MFMs 的核心能力。
然而，评估指标可能会受到作为参考标准的人类注释的限制。
例如，目前人类专家对细胞类型的注释通常基于标记基因或线性方法，这可能限制了亚型和稀有细胞类型的分类。
当使用这些注释作为评估依据时，模型会因预测的细胞簇与人类标注的细胞类型之间的高一致性（例如通过互信息度量）而被青睐。
这会在模型识别出新的细胞类型或亚簇时对其进行惩罚，因此评估指标可能恰恰违背了 MFMs 发现新生物学见解的能力。
类似的悖论也可能发生在模型预测出原本不存在于现有数据库中的新基因相互作用或药物靶点时。
这对生物分子数据分析提出了一个独特的挑战，即人类判断和注释可能是不可靠的。
因此，我们期待开发更多"客观"的、不依赖人类的指标，以改进评估过程。

Para_02

对 MFMs 的评估需要以持续且透明的方式进行。
在共享计算资源上开放排行榜和竞赛可以促进快速实验与创新。
此类努力已在 OpenProblems（）和 DREAM 挑战中率先开展，这些平台举办了大量竞赛并提供了开放数据集，以加速基于社区努力的方法开发。
我们预计这些工作将在多个方面继续扩展，包括生成标准化的训练和基准数据集、开发可信的评估指标，特别是扩大多组学数据的范围和规模。

Interpretability and hallucination risks

可解释性与幻觉风险

Para_01

尽管前景令人期待，但 MFMs 存在尚未解决的局限性，甚至可能不如传统的机器学习模型或基于规则的系统。
特别是，我们强调了可解释性和幻觉风险的问题。

Para_02

总体来说，解释大型深度学习网络具有挑战性。
对于分子细胞生物学而言，MFMs可以生成基因表达谱、预测DNA突变、识别新细胞的表观遗传特征并预测新的细胞类型。
解释某个特定基因表达为何上调，或者证明预测的基因-基因网络的准确性可能非常复杂。
最近的进展如Kolmogorov-Arnold网络显示出在梯度下降优化中提取符号函数的潜力。
这些网络可以与变压器模型集成，以增强MFMs的可解释性，为模型的预测和决策提供更清晰的解释。

Para_03

幻觉是多模态基础模型（MFMs）面临的一个重大挑战和潜在限制，最初指的是生成看似合理但实际上错误或无意义的输出。
尽管生物基础模型中的幻觉现象尚未被正式定义，我们为MFMs提出了以下事实性要求：(1) 模型的输出应基于训练数据。
(2) 输出应与上下文一致。例如，如果模型被提示生成一个CD4+ T细胞，其生成结果应具有相应的基因表达特征。
(3) 当模型无法给出准确的预测或生成时，它可以承认这一点。
诚然，满足这些要求对MFM的开发来说可能具有挑战性，尤其是第三条自我识别的要求。
解决幻觉问题的一个潜在方向是在模型预测中引入不确定性度量。
通过量化模型预测中的不确定性，可以用于识别可能的幻觉现象，并警告不确定的情况。

Open science and ethical considerations

开放科学与伦理考量

Para_01

预训练模型应该开放并可访问，同时附有清晰的说明以传达其能力、局限性和预期使用场景。
基础模型的透明性正变得越来越重要。
自然语言领域的近期努力尝试从多个重要维度评估大型语言模型的可访问性和透明性，这些维度包括数据获取、方法、使用政策、伦理风险和分配公平性等。
类似的评估维度对于生物基础模型也可能是有价值的。
通过集体努力和研究来克服这些紧迫的挑战，将是实现多模态基础模型潜力的关键。

Para_02

在生物医学场景中部署多模态模型提出了关键挑战。
需要大量患者数据集的模型需要严格的隐私、安全保护措施，以防止未经授权的访问或因数据泄露造成的危害。
必须付出巨大努力确保数据集在不同人群中具有包容性和代表性，以避免边缘化某些群体并防止模型性能偏差。
预测结果在用于患者护理之前，必须在临床队列中进行仔细验证。
已有报告指出，现有的大型自然语言模型虽然具有极大的灵活性，但也伴随着高概率的幻觉问题。
类似的担忧也可能出现在生物领域的多模态模型中。
例如，当医生根据患者的活检数据接收到推荐特定靶向治疗的建议时，确保推荐的准确性和解释其背后的逻辑至关重要。

Para_03

此外，确保模型和数据的公平获取对于推动该领域的包容性至关重要。
我们认识到需要开源和开放访问的基础设施，这些将有助于在该领域保持透明和前瞻性的视角。

A future of collective innovation

Para_01

多模态框架模型（MFMs）的发展通过整合多样化的组学数据，有望以前所未有的规模和分辨率揭示分子生物学的深刻见解。
要实现这一潜力，需要生物学家、数据科学家、人工智能研究人员和伦理学家的共同努力，以生成高质量数据、优化模型并确保可访问性。
展望未来，将MFMs整合到医学领域可能推动个性化治疗、疾病建模和药物发现等领域的创新。
这与细胞图谱（如人类细胞图谱HCA）在医学研究中已经发挥的变革性作用相呼应。
本质上，分子发现的未来将由一个充满活力、协作共进的生态系统所孕育，该系统拥有共同愿景，赋能科学界解决生物学和医学中一些最紧迫的挑战。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。原始发表：2025-04-17，如有侵权请联系 cloudcommunity@tencent 删除开发模型数据网络基础

本文标签：视角

版权声明：本文标题：视角内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：http://it.en369.cn/jiaocheng/1747633857a2196353.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。