admin管理员组

文章数量:1031308

scNET,将scRNAseq数据与PPI网络整合以更好地捕捉基因注释、通路表征以及基因间关系

Basic Information

  • 英文标题:scNET: learning context-specific gene and cell embeddings by integrating single-cell gene expression data with protein–protein interactions
  • 中文标题:scNET:通过整合单细胞基因表达数据与蛋白质-蛋白质相互作用学习上下文特定的基因和细胞嵌入
  • 发表日期:17 March 2025
  • 文章类型:Article
  • 所属期刊:Nature Methods
  • 文章作者:Ron Sheinin | Asaf Madi
  • 文章链接:

Abstract

Para_01
  1. 近期单细胞RNA测序(scRNA-seq)技术的进步为各种组织的异质性提供了前所未有的见解。
  2. 然而,仅凭基因表达数据往往无法捕捉和识别细胞通路和复合体的变化,因为这些变化在蛋白质水平上更为明显。
  3. 此外,由于固有特征如高噪声水平和零膨胀,分析scRNA-seq数据还存在进一步的挑战。
  4. 在这项研究中,我们提出了一种方法,通过将scRNA-seq数据集与蛋白质-蛋白质相互作用网络整合来解决这些局限性。
  5. 我们的方法利用了一种基于图神经网络的独特双视图架构,能够联合表示基因表达和蛋白质-蛋白质相互作用网络数据。
  6. 这种方法在特定的生物背景下模拟了基因间的关系,并使用注意力机制细化了细胞间的关系。
  7. 接下来,通过全面评估,我们证明了scNET更好地捕捉了基因注释、通路表征以及基因间关系的识别。
  8. 同时,它改善了不同细胞类型和生物条件下细胞聚类和通路分析的效果。

Main

Para_01
  1. 单细胞RNA测序(scRNA-seq)数据通过揭示内在的细胞异质性彻底改变了我们对复杂生物系统的理解。
  2. 通常,scRNA-seq分析涉及基于图的聚类以识别不同的细胞群体,随后进行差异基因表达分析。
  3. 这种方法突出了与特定细胞状态和功能相关的关键基因。
Para_02
  1. 单细胞测序(scRNA-seq)数据的一个关键限制是其零膨胀性质。
  2. 这些零计数代表了生物信号和技术限制的混合,导致与bulk RNA测序相比,丢失率显著增加。
  3. 这导致了大量的假零值,掩盖了真正的信号,导致基因表达的相关性丧失。
  4. 因此,难以区分复合体和路径激活。
  5. 为了解决这个问题,已经开发了多种scRNA-seq数据填补方法。
  6. 这些方法主要包括零膨胀概率模型、基于最近邻的表达谱平滑以及发现密集潜在表示的技术。
  7. 尽管这些方法理论上能够揭示基因间的相互作用,但大多数方法主要集中在数值恢复丢失事件和细胞聚类上。
Para_03
  1. 一些其他的方法被建议用于解决单细胞RNA测序数据中的相关性丢失问题。
  2. Aleksander等人提出的模型引入了一种考虑测序深度和读取错误的细胞特异性相关性模型,以推断细胞类型特异性的共表达。
  3. 然而,这些方法和上述提到的方法旨在从噪声中分离出真实的生物学信号,而不使用先前的和互补的知识。
Para_04
  1. 蛋白质-蛋白质相互作用(PPI)网络有效地捕捉了基因的功能背景,包括通路和复合体激活以及信号转导。
  2. 这些网络的一个关键限制是,它们通常是全局构建的,捕捉了生物体层面的相互作用,而没有反映出不同细胞类型和生物条件下发生的动态变化。
  3. 因此,将PPI与单细胞RNA测序(scRNA-seq)整合具有巨大的潜力,因为它结合了scRNA-seq的动态特性与PPI网络提供的强大功能注释和上下文信息,这可以增强下游scRNA-seq分析。
Para_05
  1. 在早期的工作中,我们展示了数据集特定加权PPIs识别细胞间相互作用后下游信号事件的潜力。
  2. 从更广泛的角度来看,将由PPIs表示的连接整合到特定的数据集中可能有助于识别条件特异性基因-基因关系。
  3. 这一概念已经在诸如Zand和Ruan等人的研究中得到了探索,他们提出了通过PPI边传播基因表达的想法。
  4. 另一项研究演示了如何使用一组差异表达基因与PPI网络结合来找到可以解释非小细胞肺癌患者生存率的关键基因子集。
  5. 进一步的研究表明,这种整合可以增强基础scRNA-seq任务,如降维、缺失值填补和细胞间相似性分析。
  6. 引入了一种基于非负矩阵分解的框架,用于在填补scRNA数据时整合PPIs。
  7. 最近,Li等人介绍了一种称为scLINE的图嵌入方法,该方法将scRNA数据与各种生物网络结合,以在一个密集的潜在空间表示中捕捉基因-基因和基因-细胞关系。
  8. 尽管如此,能够同时学习和改进基因-基因和细胞-细胞关系,并嵌入网络信息的方法可能会更有优势。
Para_06
  1. 近期在自然语言处理和大型语言模型领域的进展也被引入到单细胞RNA测序领域。
  2. Yang等人的工作13专注于特定任务,如监督下的细胞注释,而更近的研究14,15,16则侧重于开发基于训练于极其庞大的单细胞RNA测序图谱(包含数千万个细胞)的基础模型。
  3. 尽管这些模型在捕捉图谱规模动态方面表现出色,但当应用于特定数据集时,它们通常需要使用监督损失(常用细胞标签)进行微调,而这在大多数新测序的数据集中可能不可用。
  4. 因此,需要一个可以应用于未标记的小到中等规模单细胞RNA测序数据集的无监督框架。
Para_07
  1. 最近,李等人引入了一种基于图神经网络(GNN)的方法(PINNACLE),通过整合单细胞RNA测序图谱和蛋白质-蛋白质相互作用网络来学习基因表示。
  2. 他们的工作展示了在图谱层面利用深度学习框架结合单细胞RNA测序数据与蛋白质-蛋白质相互作用信息的优势。
  3. 在我们提出的框架中,我们旨在展示在数据集层面上基于深度学习的蛋白质-蛋白质相互作用整合的优势,同时利用细胞相似性来有效增强所学嵌入。
Para_08
  1. 这里我们介绍了scNET——一种结合了基因-基因和细胞-细胞关系的方法,可以同时学习基因和细胞嵌入。
  2. scNET基于蛋白质-蛋白质相互作用学习图神经网络(GNN),同时也在另一方面基于细胞-细胞表达相似性进行学习。
  3. 通过在两个网络上交替传播基因表达信息,我们提出的框架旨在同时平滑噪声并学习条件特定的基因和细胞嵌入。
  4. 它还引入了一种基于边注意力的机制来优化细胞-细胞关系图(K最近邻,KNN),放松了每个细胞固定连接数的常见假设,这可能不符合真实的生物系统。
  5. 我们的基于基因和基于细胞的双重视角使表达数据更有利于发现这两种类型的关系及其在下游任务中的应用。
Para_09
  1. 我们的结果显示,scNET 在阐明基因间关系方面超越了传统的归一化方法和先进的统计模型。
  2. 我们还展示了 scNET 细胞嵌入的潜力,这有助于更好的细胞聚类。
  3. 最后,我们表明 scNET 重建的基因表达在识别不同细胞类型和生物条件下差异富集的通路方面具有明显优势。

Results

Para_01
  1. 我们提出了scNET——一个深度学习框架,它采用双重视图编码器将scRNA测序数据与PPI信息结合起来(图1)。
  2. 这种方法旨在阐明基因与基因以及细胞与细胞之间的关系。
  3. 模型损失收敛性和不同数据集规模下的运行时间分析见补充图2-4。
  4. 我们还展示了scNET能够根据基因表达数据捕获依赖于PPI网络的信息(补充图5)。

Fig. 1: Autoencoder model architecture.

- 图片说明

◉ 最初,蛋白质相互作用网络、KNN图和基因表达数据被输入到双视图编码器(虚线部分)。◉ 随后,使用图注意力层来提取细胞和基因的潜在表示。◉ 接着,内积解码器用于重建网络连接,而全连接层负责重建基因表达。◉ 然后,KNN图通过使用注意力系数进行修剪,以优化模型性能。

Para_02
  1. 在以下章节中,我们验证了scNET基因和细胞嵌入、修剪后的KNN图以及重建的基因表达谱的优势和准确性。
  2. 我们展示了学习到的基因嵌入空间有效地捕捉到了功能组和共同注释,而细胞嵌入则捕捉到了更精细的细胞-细胞相似性。
  3. 此外,我们证明了重建的基因表达谱在标准的单细胞RNA测序差异通路富集分析中提供了显著优势。

scNET gene embedding better captures functional annotation

scNET基因嵌入更好地捕捉了功能注释

Para_01
  1. 为了评估获得的嵌入空间的实用性,我们首先测试了嵌入空间中的相关性是否准确反映了已知的生物学注释和功能。
  2. 我们计算了每对基因的基因本体(GO)语义相似性值和共嵌入系数。
  3. 然后,我们分析了这些值之间绝对相关性的分布,并将我们的结果与其他单细胞RNA测序数据填补工具的结果进行了比较,包括sct.transform、SAVER、Magic、DeepImpute、Cell-type-specific correlation tool CSCORE、图嵌入工具scLINE以及新发布的基础模型。
  4. 我们的嵌入空间的特征是平均相关性显著更高,大约为0.17,一些基因的相关性高达0.5。
  5. 与不使用先前信息的方法相比,这种改进强烈表明将生物网络与基因表达数据深度整合的优势(图2a)。

Fig. 2: Evaluation of gene representation using malaria-associated B cell dataset.

- 图片说明

◉ a, 不同方法的 GO 语义相似性值分布,每个箱线图呈现了第 25、50 和 75 百分位。◉ b, 随着聚类数量变化的富集 GO 集群的百分比。◉ c–e, 基于不同方法的基因表示的 UMAP 投影 — 计数(c),scLINE(d)和 scNET(e)。基因根据 30-均值聚类进行着色。

Para_02
  1. 接下来,我们评估了我们的嵌入空间在聚类基因时对功能注释的捕获情况。
  2. 使用从20到80不等的簇数量,我们测量了显著富集一个或多个GO术语的簇的百分比。
  3. 富集是使用基因集富集分析(GSEA)工具25,26计算的。
  4. 所有聚类范围均观察到明显的改进(图2b),证实了scNET基因嵌入增强了聚类效果。
  5. 相关结果出现在图2c-e中,在这里我们展示了基因的统一流形逼近和投影(UMAP)降维,分别对应于计数(图2c)、scLINE(图2d)和scNET(图2e)基因嵌入空间。
  6. 基因根据其k-means簇进行着色(K=30)。
  7. 与原始计数和scLINE相比,我们的scNET嵌入捕获了更小、更明确的簇。
  8. 在补充图6中,我们展示了一项分析,旨在表明我们的基因潜在空间捕获了不同细胞类型的不同动态。
Para_03
  1. 为了进一步证明scNET基因嵌入更好地捕获了功能信息,我们训练了一个三层多层感知机分类器来预测来自嵌入的GO注释。
  2. 我们重点关注至少在我们的数据集中表达50个基因的GO注释,以避免稀疏性问题。
  3. 分类器使用多标签交叉熵损失在五折交叉验证设置中进行训练。
  4. 对于每次折叠,我们计算接收者操作特征曲线下的面积(AUROC)和精确率-召回率曲线下的面积(AUPR)。
  5. 我们还将scNET与另外三种方法(scGPT、scLINE和DeepImpute)进行了基准测试。
  6. 结果显示,scNET嵌入有效地捕获了基因表示中的功能注释信息(扩展数据图1)。

scNET coembedded network captures biological pathways

scNET共嵌入网络捕获生物通路

Para_01
  1. 接下来,我们利用学习到的表示构建了一个整合了蛋白质相互作用信息和共表达信息的共嵌入网络。
  2. 我们假设这个网络可以为单细胞RNA测序中的共表达网络分析开辟新的途径,因为它作为批量RNA测序中的强大推断工具尚未在单细胞分析领域得到复制。
  3. 为此,我们再次利用了与疟疾相关的B细胞数据集,在原始空间和嵌入空间中计算了成对绝对值相关性,并将阈值设置在第50、75、95和99百分位数。
  4. 然后,使用Leiden27算法估计了每个网络的模块化值(图3a)。
  5. 显然,在所有分辨率下,基于scNET嵌入空间的网络比其原始空间对应的网络具有更高的模块化。
  6. 由于当使用第99百分位数作为阈值时,两个网络的最大模块化值都被达到,因此在后续分析中应用了这一特定阈值。
  7. 图3b展示了一个代表性子网络的结果共嵌入网络。

Fig. 3: Coembedded network evaluation using malaria-associated B cell dataset.

- 图片说明

◉ a, 各种相关性阈值的模块化结果。◉ b, 具有注释的领先莱登聚类的共嵌入基因网络的代表性子网络。◉ c, 不同方法对KEGG预测的AUPR值。◉ d, 在与疾病相关的基因列表上,从三种测试网络(共嵌入、PPI、共表达)中得到的z分数结果分布。◉ 每个箱线图展示了25、50、75百分位数。◉ e, 每个网络在与血液癌症相关的基因列表上的性能比较。

Para_02
  1. 为了进一步评估所得网络,我们使用了一种先前描述的方法28,该方法试图量化网络重构京都基因和基因组百科全书(KEGG)通路29的能力。
  2. 我们关注至少包含30个在数据集中表达的基因的通路。
  3. 每条通路被分为训练集和测试集,在训练集中每个基因被赋予一个值1。
  4. 然后将这些隶属值传播(方法)以对剩余基因进行评分,并评估重构测试集的质量。
  5. 结果显示在图3c中,scNET的表现优于先前的方法。
Para_03
  1. 最后,我们将我们的综合表示与PPI网络和原始计数进行了比较,以重建与不同疾病相关的基因列表。
  2. 与KEGG通路不同,这些列表不代表明确的通路,而是基因与条件之间的一般关联,使我们能够验证我们方法在结构较不明显的列表上的性能。
  3. 为了考虑网络之间存在的巨大拓扑差异,尤其是由于99%的截止值,我们的共嵌入网络要稀疏得多。
  4. 我们评估了每个网络相对于一组随机网络的预测能力(方法)。
  5. 共嵌入网络的平均z分数约为7,而PPI网络和共表达网络分别达到了3和0.5的z分数(图3d);完整结果可以在补充图7中找到。
Para_04
  1. 在图3e中,我们展示了来自不同类型的白血病和淋巴瘤的每个网络的结果,因为那些疾病与B细胞密切相关。我们观察到,在测试的九个基因列表中的六个中,我们的scNET共嵌入网络表现优于其他两个网络,而PPI网络在其余三个列表中取得了最高分。基于计数的共表达网络在任何一个列表中都没有取得最高结果。这些结果表明,我们新集成的嵌入表现优于模型的两个输入,展示了整合中的协同效应。
  2. 这些结果表明,我们新集成的嵌入表现优于模型的两个输入,展示了整合中的协同效应。
Para_05
  1. 在扩展数据图2中,我们展示了如何利用共嵌入网络来识别在不同生物条件下与关键分子差异关联的独特基因。
  2. 具体而言,我们将这种方法应用于小鼠胶质母细胞瘤多形性(GBM)数据集31,重点关注CD8+ T细胞群体。
  3. 如先前所述,P选择素敲除导致CD8+ T细胞的浸润、激活和增殖比对照组CD8+ T细胞增加。
  4. 我们试图确定scNET是否能在对照群体中识别出与T细胞激活和耗竭标记物PD1(由Pdcd1编码)差异关联的基因。
Para_06
  1. 首先,我们使用我们的模型构建了差异共嵌入网络,以学习治疗样本和对照样本不同的共嵌入结构。
  2. 然后通过将这些网络应用异或运算符来定义差异网络。
  3. 我们特别关注PD1共抑制受体,并假设差异网络可以揭示与该受体相关性改变的基因。
  4. 为了研究这一点,我们应用了网络传播(方法)来为每个基因分配一个关联(传播)分数。
  5. 我们的共嵌入网络有效地捕捉了基因之间的功能关联和关系。
  6. 因此,这种方法使我们能够识别条件之间可能不同于标准DE基础分析的差异功能关联。
  7. 我们观察到与涉及细胞因子信号传导和受体的基因的强关联,例如Il2ra和Ifng,以及像Cd28、Tnfrsf9(也称为4-1BB)和Tnfsf11这样的共刺激基因。
  8. 这些与共刺激和T细胞激活基因的差异功能关联可能表明PD1在对照条件下具有更明显的调节作用。

Evaluation of cell clustering

细胞聚类评估

Para_01
  1. 接下来,我们评估了 scNET 利用 Usoskin 等人的两个数据集来细化细胞间相似性的能力,这些数据集包括来自背根神经节(DRG)的各种感觉神经元,以及 Tian 等人提供的包含三种不同癌细胞系的数据集。
  2. 这些数据集包含真实标签(与分析流程确定的后处理注释相反),这使得它们适合于基准测试。
Para_02
  1. 对于每个数据集,我们将scNET的表现与基于原始计数的聚类、scLINE12、已建立的插补方法MAGIC22以及两个最先进的基础模型:scGPT14和GeneFormer15的表现进行了比较。
  2. 对于基础模型,我们使用了未经更多微调的预训练版本,因为scNET和其他方法以无监督的方式运行(这很重要,因为新生成的单细胞RNA测序数据集通常没有真实的细胞标签)。
  3. 在图4中,我们展示了每种方法(scNET、计数、scLINE、MAGIC、scGPT、GeneFormer)和数据集(Usoskin等人32、癌细胞系)的UMAP嵌入。
  4. 为了系统地评估嵌入空间,我们在一系列分辨率(0到1)上使用了Leiden聚类,并将调整后的兰德指数(ARI)的最大值与原始细胞标签进行了比较(图4m、n)。
  5. 我们观察到,与其他所有方法相比,scNET在这两个数据集中实现了最高的ARI。
  6. 基础模型在这两个数据集上的表现相对较弱,这表明尽管它们被设计用于在大型图谱大小的数据集上表现出色,但当应用于零样本设置到未见过的数据集时,它们区分细胞类型的能力减弱了。
  7. 这突显了开发无监督的、单数据集框架作为大型基础模型在单细胞RNA测序领域互补方法的需求。

Fig. 4: Benchmark of cell embedding and clustering.

- 图片说明

◉ a–f,DRG数据集的细胞嵌入的UMAP图,按scNET执行的真实细胞标签着色(a),原始计数(b),scLINE(c),MAGIC(d),scGPT(e)和GeneFormer(f)。◉ g–l,癌细胞系数据集的细胞嵌入的UMAP图,按scNET执行的真实细胞标签着色(g),原始计数(h),scLINE(i),MAGIC(j),scGPT(k)和GeneFormer(l)。◉ m,在DRG数据集中每个方法在分辨率范围(0,1]内通过Leiden聚类获得的最大ARI。◉ n,在癌细胞系数据集中每个方法在分辨率范围(0,1]内通过Leiden聚类获得的最大ARI。◉ 神经元类型:NF,神经丝;NP,非肽能;PEP,肽能;TH,酪氨酸羟化酶。

Para_03
  1. 经过仔细观察UMAP图,在Usoskin数据集中,我们看到,在原始计数UMAP图(图4b)中,酪氨酸羟化酶和非肽能细胞类型被分开聚类。
  2. 然而,在应用了scNET、scLINE(图4a,c)和MAGIC(图4d)后,我们观察到这些细胞类型的分离更加明显。
  3. 在癌细胞系数据集中,原始计数UMAP图(图4h)显示,虽然H228和HCCB27形成了定义明确的聚类,但H1975分裂成了两个独立的社区。
  4. 这种分离在应用了scLINE和MAGIC之后(图4i,j)仍然保留,只有scNET(图4a)成功地将H1975嵌入到一个单一且定义明确的组中。
Para_04
  1. 我们还调查了在30个周期(预剪枝)后KNN图中注意力系数的分布,如补充图8c所示。
  2. 观察到一个显著的双峰分布,其中一个峰值接近零(低质量边),另一个峰值在一点(高质量、信息丰富的边),这表明我们的模型能够有效地区分KNN拓扑中的边质量。
Para_05
  1. 最后,使用一个特征明确的细胞周期数据集34,我们检查了UMAP表示中的细胞状态分离。
  2. 原始的UMAP不足以区分S和G1状态,将它们合并成一个单一的聚类。
  3. 相比之下,来自我们模型的UMAP(补充图8a、b)显示出了更清晰的分离,S状态聚类被适当地从G1和G2聚类中分离开来。
  4. 这表明即使在全球结构中也有更准确的生物表征。
  5. 我们在嵌入空间中的Leiden聚类得到了0.46的最大ARI,超过了原始归一化计数空间中的0.35 ARI。

scNET reduces zero inflation and improves pathway analysis

scNET减少了零膨胀并改进了通路分析

Para_01
  1. 我们假设重建的基因表达不仅准确反映了原始的基因表达谱,而且还整合了来自PPI网络的更多信息。这种整合有望为单细胞数据中的通路激活和复杂生物过程提供更详细的表征。
  2. 这将有助于更详细地描述途径激活和复杂的生物过程在单细胞数据中的情况。
Para_02
  1. 为了验证我们重建的基因表达数据的质量,我们首先评估了重建的基因表达是否准确地捕捉到了不同细胞群体的独特表达动态。
  2. 我们将 scNET 应用于 GL261a 小鼠脑肿瘤模型数据集31,并可视化了不同细胞群体的重建基因标记(图5a)。
  3. 重建的细胞根据其细胞类型进行了聚类,证明了 scNET 能够捕捉到细胞类型的差异。
  4. 此外,标记基因的表达值与其各自的细胞群体表现出强烈的关联性。
  5. 例如,Cd4 和 Cd8a 的表达准确对应于它们各自的 T 细胞亚群;Cd14 有效地识别了巨噬细胞;而 P2ry12 则精确地捕获了小胶质细胞。

Fig. 5: Reconstructed gene expression allows for better capture of pathway activity across different cell types and conditions in GBM tumor microenvironment.

- 图片说明

◉ a, 重建的细胞类型相关标记基因面板。◉ b, 在scNET重建的基因表达差异基因分析后不同细胞类型的前20条富集通路热图。ECM,细胞外基质;GPI,糖基磷脂肌醇;NSF,N-乙基马来酰亚胺敏感因子;SNARE,可溶性NSF附着蛋白受体。◉ c, 在原始基因表达差异基因分析后不同细胞类型的前20条富集通路热图。NOD,核苷酸结合寡聚化结构域。◉ d, 使用GSEA调整P值比较P选择素抑制处理CD8+ T细胞与对照组中富集通路的变化。前九条通路与T细胞和免疫激活有关(绿色),而其余通路则是相对于T细胞相关基因被耗尽的通路。Akt,蛋白激酶B;IL,白细胞介素;JAK,Janus激酶;MAPK,丝裂原活化蛋白激酶;PD1,程序性细胞死亡蛋白1;PD-L1,程序性细胞死亡配体1;PI3K,磷脂酰肌醇3-激酶;STAT,信号转导和转录激活因子;TCA,三羧酸循环。

Para_03
  1. 为了进一步评估零膨胀的减少和标记基因表达的准确性,我们基于每种细胞类型的相应标记基因计算了每个细胞类型的AUPR。
  2. 我们将原始计数数据、scNET重建数据以及MAGIC和DeepImpute的插补数据的AUPR得分进行了比较(表1)。
  3. 我们的结果显示,scNET在所有细胞类型中始终获得更高的AUPR得分,这提供了强有力的证据,证明重建的数据可靠地捕捉到了潜在的基因表达动态。

Table 1 AUPR of marker gene expression for identifying different cell types 表1 标记基因表达用于识别不同细胞类型的AUPR

Para_04
  1. 接下来,我们评估了使用重建基因表达数据进行差异基因表达分析的质量。
  2. 我们假设,通过整合蛋白质相互作用网络,重建的基因表达将更好地捕捉到不同簇和细胞群体之间的差异途径,从而提高生物学推断。
  3. 我们重点关注了数据集中四个主要的细胞群体:T细胞、巨噬细胞、小胶质细胞和癌细胞。
  4. 我们应用了标准的差异基因表达分析方法,并且每种细胞群体的差异表达基因被用来计算富集的KEGG通路。
  5. 在图5b中,我们展示了每种细胞群体的前20条最富集的通路。
  6. 我们的分析表明,scNET重建的数据捕获了与每个群体相关的相关通路。
  7. 例如,T细胞在诸如‘T细胞受体信号通路’、‘人类T细胞白血病病毒1感染’和‘TH17细胞分化’等通路中富集。
  8. 小胶质细胞显示在与其神经元相互作用相关的通路中富集,如‘谷氨酸能突触’和‘逆向内源性大麻素信号传导’。
  9. 癌细胞在诸如‘细胞周期’、‘氧化磷酸化’和‘DNA复制’等增殖和代谢通路中富集,同时也富集在与神经退行性疾病相关的通路中,如‘帕金森病’,这与已知的GBM机制相似。
  10. 巨噬细胞在与其功能相关的通路中上调,如‘溶酶体’、‘细胞因子-细胞因子受体相互作用’和‘吞噬体’,这也与小胶质细胞共享。
Para_05
  1. 为了比较,我们在原始基因表达数据上进行了相同的分析(图5c)。
  2. 结果显示,偏向巨噬细胞的趋势很强,涉及‘凋亡’、‘B细胞受体信号传导’和‘阿尔茨海默病’等通常不与该细胞群体相关的通路显著富集。
  3. 相比之下,其他细胞群显示出显著较少的通路富集。
  4. 这表明原始数据倾向于巨噬细胞,而scNET能够对此进行校正。
Para_06
  1. 最后,我们测试了scNET重建的基因表达是否能够在不同的生物条件下识别同一细胞群体内的差异动态。
  2. 我们使用了一个包含对照样本和用P选择素抑制剂处理的样本的数据集,这种处理减少了GBM小鼠模型中的肿瘤生长并改善了生存率。
  3. 我们的分析集中在CD8+ T细胞群体上,根据Yeini等人31的研究,这种细胞在P选择素抑制后表现出增加的肿瘤浸润和激活。
  4. 然而,标准的单细胞RNA测序分析并未显示出与对照相比转录组层面的显著变化,这使得这一群体成为测试scNET检测上调通路能力的理想候选者。
Para_07
  1. 鉴于已知P选择素抑制与激活的CD8+ T细胞群体增加之间的关联,我们旨在确定是否可以通过使用scNET嵌入空间的途径导向方法揭示此类关联。
  2. 我们选择了九条与T细胞激活相关的KEGG通路,包括‘T细胞受体信号传导’和‘NF-κB’等通路。
  3. 我们使用了scNET框架上的差异表达分析,结合原始计数,使用GSEA评估每条通路的差异富集情况。
  4. 我们的分析发现,在scNET网络中,九条与T细胞相关的通路中有八条显著富集,而使用原始计数时未检测到任何一条通路的富集。
Para_08
  1. 为了验证这些结果的特异性,我们构建了一个与T细胞无关的阴性路径集。
  2. 利用MSigDB免疫特征模块26,我们编制了一个与T细胞相关的综合基因库。
  3. 在这个数据库中进行的详尽搜索确定了776个与T细胞相关的特征。
  4. 我们选择了至少出现在这1%特征中的基因,并识别了相对于这些基因而言富集程度较低的路径(使用超几何评分)。
  5. 这些路径包括‘核糖体’、‘剪接体’和‘脂肪酸生物合成’,它们作为我们的阴性集。
  6. 使用相同的GSEA分析,scNET相对于原始计数产生了较低的富集评分,表明具有高度特异性(图5d)。

Discussion

Para_01
  1. 识别途径和复合体在不同生物条件下如何被激活对于全面理解比较系统分析中观察到的生物转变至关重要。
  2. 在大规模RNA测序中,共表达和差异共表达分析是基本的推理工具。
  3. 然而,由于单细胞RNA测序的零膨胀性质以及该数据类型典型的关联性减弱,这些方法在单细胞RNA测序中并不像在大规模测序中那样有效。
  4. 因此,开发创新工具来克服这些限制,并进一步识别和分析特定条件下的途径激活对于单细胞基因组学充分发挥其巨大潜力至关重要。
Para_02
  1. 在这项研究中,我们介绍了一个前沿的深度学习框架scNET,它将scRNA测序数据与PPI网络相结合。
  2. 与传统数据集不同,传统数据集将样本和特征明确分开,我们的集成数据集呈现了一种独特的双重性。
  3. 在这里,细胞被表示为基因表达测量的向量,而基因则由跨越各种细胞的表达向量来表征。
  4. 我们认为,利用这种双重性质的模型将实现更优的性能。
Para_03
  1. 随后,我们制定了一种基于GNN架构的自动编码器模型。
  2. 我们提出的模型包含了两个图和一个节点特征矩阵。
  3. 一个网络捕捉了行所代表的关系,这些行表示样本,而另一个网络则描绘了列所展示的关系。
  4. 通过这种双图编码器,节点特征矩阵中的值在这些网络之间流动,实现了相似细胞(列)和相互作用基因(行)之间的同步信号传播。
Para_04
  1. 为了评估我们的方法的有效性,我们引入了一个细致的验证框架。
  2. 这个框架衡量了我们的方法在识别通路和功能共注释方面的熟练程度,相对于该领域的相关工作。
  3. 我们的研究结果强调了我们的方法在将全局生物网络与特定上下文的基因表达相结合方面的优势。
  4. 通过我们的模型,我们能够辨别出GBM肿瘤微环境在接受治疗(P选择素抑制)后的不同通路激活。
  5. 这揭示了治疗的功能影响,而这些影响在仅依赖传统的差异基因表达分析或原始独特分子标识空间中的共表达分析时仍然难以捉摸。
  6. 这些证据表明,我们的集成嵌入空间提供了更深刻的视角来理解复杂的生物系统,关注的是更广泛的通路而不是单一的基因表达。
Para_05
  1. 需要注意的是,尽管蛋白质相互作用(PPIs)包含了关于基因相互作用的关键信息,但它们并不涵盖那些通过间接方式介导的关键调控事件,例如涉及转录因子的事件。
  2. 这些相互作用在调节细胞内的基因表达方面发挥着显著作用,并且它们的纳入对于全面理解基因-基因关系至关重要。
  3. 然而,将它们整合到现有框架中可能并不简单。
  4. 例如,已知许多转录因子在不同条件下表达水平保持稳定,但它们的定位和磷酸化可能会因为激活而发生变化。
  5. 通过单细胞转座酶可及染色质测序技术等手段获得的这些指标,可以进一步改进scNET嵌入。
Para_06
  1. 此外,我们提出了一种独特的方法来构建一个更为精细的细胞间相似性图。
  2. 通过在KNN图上实施注意力机制,我们有效地修剪了次优边,放松了每个细胞本质上与固定数量的K个其他细胞相似的基本假设。
  3. 尽管我们的研究主要旨在阐明和验证基因嵌入空间,但我们的模型能够准确捕捉细胞间关系的能力已经显现为一个有前景的方面。
  4. 这为利用注意力机制来辨别单细胞RNA测序数据中的细胞间相似性的创新计算方法铺平了道路。
Para_07
  1. 除了单细胞RNA测序(scRNA-seq),KNN是机器学习中用于数据填补的一种成熟方法。
  2. 我们提出的方法框架将这种方法整合进其架构中,提供了一种更连贯的方式来处理噪声和缺失值,并使模型能够优化不同对象之间的关系。
  3. 因此,我们认为我们的创新框架超越了scRNA-seq数据应用,可以应用于具有类似双重特征的其他数据集。

Methods

Gene expression datasets

基因表达数据集

Para_01
  1. 以下scRNA测序数据集已在本研究中使用:

[ol]- 1. Human malaria-associated B cells: described in ref. 42, containing 7,044 cells over 19,374 genes. - 2. Mouse visual cortex: described in ref. 43, containing 65,540 cells over 25,187 genes. - 3. Human cell line: described in ref. 33, containing 902 cells over 16,468 genes from three different human cell lines (H1975, H2228, HCC827). - 4. Mouse embryonic stem (mES) cell cycle: described in ref. 44, containing 275 cells over 23,506 genes, each gene is labeled according to its cell cycle state (G1, G2/M, S). - 5. GBM mouse model: described in ref. 31, containing 9,175 cells over 18,531 genes from control and treatment (inhibition of P-selectin) samples. - 6. Usoskin’s DRG: described in ref. 32, containing 799 cells over 25,334 genes from the DRG of the mouse identified by known markers associated with their function. - 7. Glioma tumor-reactive CD8+ T cells: as described in ref. 45, this dataset contains 4,231 T cells over 14,202 genes from the mouse glioma tumor microenvironment. All T cells were H-2Kb-SIINFEKL dextramer-positive (Dext+).

Data prepossessing

数据预处理

Para_01
  1. scRNA-seq 表达数据使用标准的 Scanpy 包(版本 1.9.1)进行了预处理。
  2. 简而言之,该流程包括以下步骤:

[ol]- 1. log normalization: feature counts for each cell are divided by the total counts for that cell and multiplied by a scale factor, finally log1p is applied. - 2. Variance-based filtering: scNET learns to reconstruct a subset of expressed genes that exhibit high variance across the dataset, as described below. To identify these genes, we used the highly_variable_genes function, which calculates gene-wise variance after mean normalization. The default cutoff was applied to obtain the final subset of highly variable genes. - 3. Dimensionality reduction: principal component analysis and UMAP are calculated from the scale-normalized data matrix, where each feature normalized expression is scaled across the cells. The number of principal components for the clustering was selected manually based on an elbow plot showing the gain in variance with each further vector. - 4. KNN graph: KNN was calculated for each cell in the data and a KNN graph was constructed in the reduced principal component analysis space. - 5. Scaling: we found that our model works best with scaled gene expression data. Therefore, we applied standard scaling to the log-normalized expression, where each gene’s expression is normalized to have a mean of 0 and s.d. of 1.

Para_02
  1. 一个加权的人类蛋白质相互作用网络被使用,过滤掉了得分低于0.5的边。
  2. 过滤后的网络涵盖了14,136种蛋白质和111,790次相互作用。
  3. 我们进一步移除了所有对应于在scRNA数据中未表达基因的节点(在所有细胞中表达量均为零)。
  4. 为了从标准化的基因表达矩阵构建节点特征矩阵,我们过滤掉了在网络中没有边表示或在scRNA数据中未表达的基因。

The encoder

编码器

Para_01
  1. 我们提出的模型通过学习基因和细胞嵌入来整合scRNA-seq和PPI数据,这些嵌入有效地捕捉了网络结构和表达信息,同时降低了数据的噪声水平。
  2. 具体来说,我们的编码器架构(图1)交替应用卷积层来在相似细胞之间聚合信息,因此填补缺失值并降低噪声水平,然后在转置矩阵上再应用另一个卷积层来在相互作用的蛋白质之间聚合信息。
  3. 聚合的信息随后通过图注意力层产生潜在表示。
Graph convolution layer

图卷积层

Para_01
  1. 卷积层47将每个节点周围的节点信息聚合,形成输出节点特征向量。
  2. 形式上,我们可以定义G = (V, E),其中包含N = ∣V∣个节点和邻接矩阵A ∈ RN×N以及节点特征矩阵X ∈ RN×F。
  3. 单个卷积层的输出为σ (Ãδ (X)W),其中σ是激活函数,δ是dropout,Ã=D¯^(-1/2)AD¯^(-1/2),D是图的对角度矩阵,而Ã=A+I。
Graph attention layer

图注意力层

Para_01
  1. 通过引入注意力机制,我们的模型通过学习图中每条边的权重来改进细胞-细胞相似性图(KNN)。
  2. 这些权重表示模型在重构细胞i的基因表达时对细胞j的重要性。
  3. 我们认为每个细胞与固定数量K的其他细胞相似这一假设是任意的,并可能导致包含错误的边。
  4. 因此,在我们的框架中,我们使用学习到的注意力权重作为修剪低质量边的基础。

错误!!! - 待补充

Para_03
  1. 其中 N(i) 是网络中节点 i 的邻居,注意力系数为:
Para_04
  1. W1、W2、W3和W4是学习得到的矩阵。
Para_05
  1. 在我们的实现中,我们修改了原始的激活函数,用sigmoid函数替换了按节点的softmax函数。
  2. 这一改变意味着边的得分不再按节点进行归一化,使我们能够如下面所述那样修剪全局低分边。
KNN graph pruning using attention coefficients

使用注意力系数进行KNN图剪枝

Para_01
  1. 使用KNN平滑细胞间的表达假设每个细胞与数据集中任意其他K个细胞相似。然而,这一假设可能在生物学上不准确,因为来自不同群体和状态的细胞在数据中可能以不同的数量表示。
  2. 为了解决这个问题,我们建议使用学习到的关注系数来修剪低质量的边。具体来说,我们计算并定义图的新边集为:
Para_02
  1. P10 是第 10 个百分位,β 定义为 (\max (0,{P"}_{10}))。
  2. ,
Para_03
  1. 因此,注意力层的引入不仅帮助模型学习到更有意义的细胞和基因潜在表示,而且还使模型能够学习KNN网络的新拓扑结构,从而使图更好地捕捉细胞间关系。

The complete autoencoder model

完整的自动编码器模型

Para_01
  1. 我们的最终自动编码器模型如图1所示。
  2. 首先,KNN图、PPI网络和基因表达矩阵被输入到一个三层的双视图编码器(细胞的图卷积网络的三层和基因的图卷积网络的三层)。
  3. 接下来,我们利用单层图注意力来学习两个密集的潜在表示(使用KNN图作为细胞注意层和使用PPI作为基因注意层),一个用于基因,另一个用于细胞。
  4. 最后,我们应用内积解码器重建PPI网络,并应用三层全连接解码器重建基因表达。
Para_02
  1. 在训练过程中固定时间间隔内,我们还像上面讨论的那样修剪了KNN图。
  2. 训练结束后,模型返回基因和细胞的嵌入向量,以及修剪后的KNN图和基因表达的重构。
  3. 损失函数结合了PPI重构和基因表达重构的损失。
Para_03
  1. 内积解码器定义为 (\hat{A"}=\sigma (ZZ^{T"})),其中 Z 是基因的潜在表示,σ 是 Sigmoid 激活函数。
  2. 我们用 Zpos 表示训练后的蛋白质相互作用网络中的边集合,用 Zneg 表示随机采样的负边集合,并且满足 |Zpos| = |Zneg|。
  3. 然后我们定义:
Para_04
  1. 如上所述,我们首先选择一组在数据集中表现出显著变异的基因子集。我们将这个子集表示为Mv。
  2. 然后,我们在该子集中的基因上使用均方误差(m.s.e.)损失函数来训练模型。
  3. 正式地,我们定义:
Para_05
  1. 这里 ((\hat{{\bf{M"}}}_{{\mathrm{v"}}})) 是 Mv 中基因表达水平的重建向量。
  2. 让我们一步一步地思考。
Para_06
  1. 我们的最终损失函数是:
  2. 让我们一步一步地思考。
Para_07
  1. 其中 λPPI 和 λv 是模型的超参数。

Network evaluation

网络评估

Para_01
  1. 为了评估我们研究中各种网络的预测能力,我们关注了已知的功能组,例如那些在KEGG通路中定义的。
  2. 通常,每个组被分为训练集和测试集,比例为三分之二对三分之一。
  3. 然后,我们应用随机游走重启方法49将训练组的成员资格传播到所有其他节点。
  4. 传播得分被用作成员资格得分来计算每个网络的曲线下面积(AUC)得分。
  5. 具体而言,给定邻接矩阵W和节点度数矩阵D,通过以下公式迭代计算传播:
Para_02
  1. 其中 F0 表示输入的二进制隶属向量,(W' = D^{-1/2}WD^{-1/2}) 是网络的归一化邻接矩阵。
  2. 为了考虑节点中心性,我们将得到的向量 F∞ 按元素分别除以使用全 1 输入向量获得的传播得分进行归一化。
Para_03
  1. 此外,为了评估具有不同数量边的网络,我们实现了一个无拓扑结构的评估框架,将每个网络的预测能力与一组随机置换图进行比较,如前所述30。
  2. 为此,我们使用了一个包含230个与各种疾病相关的基因列表的数据库。
  3. 对于每个网络,我们生成了30个度数保持的随机网络,以建立背景分布。
  4. 基因列表被分割为训练集和测试集,通过训练集启动的网络传播用于预测测试集。
  5. 对每个网络计算了AUC得分,并使用随机网络上的得分分布将其转换为z得分。

Implementation and training

实施和训练

Data availability

Para_01
  1. 在这项研究中,我们使用了如方法部分所述的公开可用的数据集,这些数据集可以通过Gene Expression和ArrayExpress访问。
  2. 使用的具体数据集包括:疟疾相关B细胞数据集(GSE149729),小鼠视觉皮层数据集(GSE102827),人类细胞系数据集(GSE118767),mES细胞周期数据集(E-MTAB-2805),胶质母细胞瘤数据集(GSE156663),Usoskin的DRG数据集(GSE59739),以及胶质瘤肿瘤活化CD8 T细胞数据集(GSE154795)。

Code availability

Para_01
  1. scNET 可以通过 GitHub 下载,网址是 包括所有必要的文件和 conda 环境,并且可以通过 PyPi 作为官方 Python 包下载,网址是 /。同时还包含了一个说明如何使用 Google Colab 平台运行该模型的笔记本(推荐)。
  2. A notebook illustrating how to run the model using the Google Colab platform (recommended) is included as well.
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。原始发表:2025-04-10,如有侵权请联系 cloudcommunity@tencent 删除natmethods模型数据网络

scNET,将scRNAseq数据与PPI网络整合以更好地捕捉基因注释、通路表征以及基因间关系

Basic Information

  • 英文标题:scNET: learning context-specific gene and cell embeddings by integrating single-cell gene expression data with protein–protein interactions
  • 中文标题:scNET:通过整合单细胞基因表达数据与蛋白质-蛋白质相互作用学习上下文特定的基因和细胞嵌入
  • 发表日期:17 March 2025
  • 文章类型:Article
  • 所属期刊:Nature Methods
  • 文章作者:Ron Sheinin | Asaf Madi
  • 文章链接:

Abstract

Para_01
  1. 近期单细胞RNA测序(scRNA-seq)技术的进步为各种组织的异质性提供了前所未有的见解。
  2. 然而,仅凭基因表达数据往往无法捕捉和识别细胞通路和复合体的变化,因为这些变化在蛋白质水平上更为明显。
  3. 此外,由于固有特征如高噪声水平和零膨胀,分析scRNA-seq数据还存在进一步的挑战。
  4. 在这项研究中,我们提出了一种方法,通过将scRNA-seq数据集与蛋白质-蛋白质相互作用网络整合来解决这些局限性。
  5. 我们的方法利用了一种基于图神经网络的独特双视图架构,能够联合表示基因表达和蛋白质-蛋白质相互作用网络数据。
  6. 这种方法在特定的生物背景下模拟了基因间的关系,并使用注意力机制细化了细胞间的关系。
  7. 接下来,通过全面评估,我们证明了scNET更好地捕捉了基因注释、通路表征以及基因间关系的识别。
  8. 同时,它改善了不同细胞类型和生物条件下细胞聚类和通路分析的效果。

Main

Para_01
  1. 单细胞RNA测序(scRNA-seq)数据通过揭示内在的细胞异质性彻底改变了我们对复杂生物系统的理解。
  2. 通常,scRNA-seq分析涉及基于图的聚类以识别不同的细胞群体,随后进行差异基因表达分析。
  3. 这种方法突出了与特定细胞状态和功能相关的关键基因。
Para_02
  1. 单细胞测序(scRNA-seq)数据的一个关键限制是其零膨胀性质。
  2. 这些零计数代表了生物信号和技术限制的混合,导致与bulk RNA测序相比,丢失率显著增加。
  3. 这导致了大量的假零值,掩盖了真正的信号,导致基因表达的相关性丧失。
  4. 因此,难以区分复合体和路径激活。
  5. 为了解决这个问题,已经开发了多种scRNA-seq数据填补方法。
  6. 这些方法主要包括零膨胀概率模型、基于最近邻的表达谱平滑以及发现密集潜在表示的技术。
  7. 尽管这些方法理论上能够揭示基因间的相互作用,但大多数方法主要集中在数值恢复丢失事件和细胞聚类上。
Para_03
  1. 一些其他的方法被建议用于解决单细胞RNA测序数据中的相关性丢失问题。
  2. Aleksander等人提出的模型引入了一种考虑测序深度和读取错误的细胞特异性相关性模型,以推断细胞类型特异性的共表达。
  3. 然而,这些方法和上述提到的方法旨在从噪声中分离出真实的生物学信号,而不使用先前的和互补的知识。
Para_04
  1. 蛋白质-蛋白质相互作用(PPI)网络有效地捕捉了基因的功能背景,包括通路和复合体激活以及信号转导。
  2. 这些网络的一个关键限制是,它们通常是全局构建的,捕捉了生物体层面的相互作用,而没有反映出不同细胞类型和生物条件下发生的动态变化。
  3. 因此,将PPI与单细胞RNA测序(scRNA-seq)整合具有巨大的潜力,因为它结合了scRNA-seq的动态特性与PPI网络提供的强大功能注释和上下文信息,这可以增强下游scRNA-seq分析。
Para_05
  1. 在早期的工作中,我们展示了数据集特定加权PPIs识别细胞间相互作用后下游信号事件的潜力。
  2. 从更广泛的角度来看,将由PPIs表示的连接整合到特定的数据集中可能有助于识别条件特异性基因-基因关系。
  3. 这一概念已经在诸如Zand和Ruan等人的研究中得到了探索,他们提出了通过PPI边传播基因表达的想法。
  4. 另一项研究演示了如何使用一组差异表达基因与PPI网络结合来找到可以解释非小细胞肺癌患者生存率的关键基因子集。
  5. 进一步的研究表明,这种整合可以增强基础scRNA-seq任务,如降维、缺失值填补和细胞间相似性分析。
  6. 引入了一种基于非负矩阵分解的框架,用于在填补scRNA数据时整合PPIs。
  7. 最近,Li等人介绍了一种称为scLINE的图嵌入方法,该方法将scRNA数据与各种生物网络结合,以在一个密集的潜在空间表示中捕捉基因-基因和基因-细胞关系。
  8. 尽管如此,能够同时学习和改进基因-基因和细胞-细胞关系,并嵌入网络信息的方法可能会更有优势。
Para_06
  1. 近期在自然语言处理和大型语言模型领域的进展也被引入到单细胞RNA测序领域。
  2. Yang等人的工作13专注于特定任务,如监督下的细胞注释,而更近的研究14,15,16则侧重于开发基于训练于极其庞大的单细胞RNA测序图谱(包含数千万个细胞)的基础模型。
  3. 尽管这些模型在捕捉图谱规模动态方面表现出色,但当应用于特定数据集时,它们通常需要使用监督损失(常用细胞标签)进行微调,而这在大多数新测序的数据集中可能不可用。
  4. 因此,需要一个可以应用于未标记的小到中等规模单细胞RNA测序数据集的无监督框架。
Para_07
  1. 最近,李等人引入了一种基于图神经网络(GNN)的方法(PINNACLE),通过整合单细胞RNA测序图谱和蛋白质-蛋白质相互作用网络来学习基因表示。
  2. 他们的工作展示了在图谱层面利用深度学习框架结合单细胞RNA测序数据与蛋白质-蛋白质相互作用信息的优势。
  3. 在我们提出的框架中,我们旨在展示在数据集层面上基于深度学习的蛋白质-蛋白质相互作用整合的优势,同时利用细胞相似性来有效增强所学嵌入。
Para_08
  1. 这里我们介绍了scNET——一种结合了基因-基因和细胞-细胞关系的方法,可以同时学习基因和细胞嵌入。
  2. scNET基于蛋白质-蛋白质相互作用学习图神经网络(GNN),同时也在另一方面基于细胞-细胞表达相似性进行学习。
  3. 通过在两个网络上交替传播基因表达信息,我们提出的框架旨在同时平滑噪声并学习条件特定的基因和细胞嵌入。
  4. 它还引入了一种基于边注意力的机制来优化细胞-细胞关系图(K最近邻,KNN),放松了每个细胞固定连接数的常见假设,这可能不符合真实的生物系统。
  5. 我们的基于基因和基于细胞的双重视角使表达数据更有利于发现这两种类型的关系及其在下游任务中的应用。
Para_09
  1. 我们的结果显示,scNET 在阐明基因间关系方面超越了传统的归一化方法和先进的统计模型。
  2. 我们还展示了 scNET 细胞嵌入的潜力,这有助于更好的细胞聚类。
  3. 最后,我们表明 scNET 重建的基因表达在识别不同细胞类型和生物条件下差异富集的通路方面具有明显优势。

Results

Para_01
  1. 我们提出了scNET——一个深度学习框架,它采用双重视图编码器将scRNA测序数据与PPI信息结合起来(图1)。
  2. 这种方法旨在阐明基因与基因以及细胞与细胞之间的关系。
  3. 模型损失收敛性和不同数据集规模下的运行时间分析见补充图2-4。
  4. 我们还展示了scNET能够根据基因表达数据捕获依赖于PPI网络的信息(补充图5)。

Fig. 1: Autoencoder model architecture.

- 图片说明

◉ 最初,蛋白质相互作用网络、KNN图和基因表达数据被输入到双视图编码器(虚线部分)。◉ 随后,使用图注意力层来提取细胞和基因的潜在表示。◉ 接着,内积解码器用于重建网络连接,而全连接层负责重建基因表达。◉ 然后,KNN图通过使用注意力系数进行修剪,以优化模型性能。

Para_02
  1. 在以下章节中,我们验证了scNET基因和细胞嵌入、修剪后的KNN图以及重建的基因表达谱的优势和准确性。
  2. 我们展示了学习到的基因嵌入空间有效地捕捉到了功能组和共同注释,而细胞嵌入则捕捉到了更精细的细胞-细胞相似性。
  3. 此外,我们证明了重建的基因表达谱在标准的单细胞RNA测序差异通路富集分析中提供了显著优势。

scNET gene embedding better captures functional annotation

scNET基因嵌入更好地捕捉了功能注释

Para_01
  1. 为了评估获得的嵌入空间的实用性,我们首先测试了嵌入空间中的相关性是否准确反映了已知的生物学注释和功能。
  2. 我们计算了每对基因的基因本体(GO)语义相似性值和共嵌入系数。
  3. 然后,我们分析了这些值之间绝对相关性的分布,并将我们的结果与其他单细胞RNA测序数据填补工具的结果进行了比较,包括sct.transform、SAVER、Magic、DeepImpute、Cell-type-specific correlation tool CSCORE、图嵌入工具scLINE以及新发布的基础模型。
  4. 我们的嵌入空间的特征是平均相关性显著更高,大约为0.17,一些基因的相关性高达0.5。
  5. 与不使用先前信息的方法相比,这种改进强烈表明将生物网络与基因表达数据深度整合的优势(图2a)。

Fig. 2: Evaluation of gene representation using malaria-associated B cell dataset.

- 图片说明

◉ a, 不同方法的 GO 语义相似性值分布,每个箱线图呈现了第 25、50 和 75 百分位。◉ b, 随着聚类数量变化的富集 GO 集群的百分比。◉ c–e, 基于不同方法的基因表示的 UMAP 投影 — 计数(c),scLINE(d)和 scNET(e)。基因根据 30-均值聚类进行着色。

Para_02
  1. 接下来,我们评估了我们的嵌入空间在聚类基因时对功能注释的捕获情况。
  2. 使用从20到80不等的簇数量,我们测量了显著富集一个或多个GO术语的簇的百分比。
  3. 富集是使用基因集富集分析(GSEA)工具25,26计算的。
  4. 所有聚类范围均观察到明显的改进(图2b),证实了scNET基因嵌入增强了聚类效果。
  5. 相关结果出现在图2c-e中,在这里我们展示了基因的统一流形逼近和投影(UMAP)降维,分别对应于计数(图2c)、scLINE(图2d)和scNET(图2e)基因嵌入空间。
  6. 基因根据其k-means簇进行着色(K=30)。
  7. 与原始计数和scLINE相比,我们的scNET嵌入捕获了更小、更明确的簇。
  8. 在补充图6中,我们展示了一项分析,旨在表明我们的基因潜在空间捕获了不同细胞类型的不同动态。
Para_03
  1. 为了进一步证明scNET基因嵌入更好地捕获了功能信息,我们训练了一个三层多层感知机分类器来预测来自嵌入的GO注释。
  2. 我们重点关注至少在我们的数据集中表达50个基因的GO注释,以避免稀疏性问题。
  3. 分类器使用多标签交叉熵损失在五折交叉验证设置中进行训练。
  4. 对于每次折叠,我们计算接收者操作特征曲线下的面积(AUROC)和精确率-召回率曲线下的面积(AUPR)。
  5. 我们还将scNET与另外三种方法(scGPT、scLINE和DeepImpute)进行了基准测试。
  6. 结果显示,scNET嵌入有效地捕获了基因表示中的功能注释信息(扩展数据图1)。

scNET coembedded network captures biological pathways

scNET共嵌入网络捕获生物通路

Para_01
  1. 接下来,我们利用学习到的表示构建了一个整合了蛋白质相互作用信息和共表达信息的共嵌入网络。
  2. 我们假设这个网络可以为单细胞RNA测序中的共表达网络分析开辟新的途径,因为它作为批量RNA测序中的强大推断工具尚未在单细胞分析领域得到复制。
  3. 为此,我们再次利用了与疟疾相关的B细胞数据集,在原始空间和嵌入空间中计算了成对绝对值相关性,并将阈值设置在第50、75、95和99百分位数。
  4. 然后,使用Leiden27算法估计了每个网络的模块化值(图3a)。
  5. 显然,在所有分辨率下,基于scNET嵌入空间的网络比其原始空间对应的网络具有更高的模块化。
  6. 由于当使用第99百分位数作为阈值时,两个网络的最大模块化值都被达到,因此在后续分析中应用了这一特定阈值。
  7. 图3b展示了一个代表性子网络的结果共嵌入网络。

Fig. 3: Coembedded network evaluation using malaria-associated B cell dataset.

- 图片说明

◉ a, 各种相关性阈值的模块化结果。◉ b, 具有注释的领先莱登聚类的共嵌入基因网络的代表性子网络。◉ c, 不同方法对KEGG预测的AUPR值。◉ d, 在与疾病相关的基因列表上,从三种测试网络(共嵌入、PPI、共表达)中得到的z分数结果分布。◉ 每个箱线图展示了25、50、75百分位数。◉ e, 每个网络在与血液癌症相关的基因列表上的性能比较。

Para_02
  1. 为了进一步评估所得网络,我们使用了一种先前描述的方法28,该方法试图量化网络重构京都基因和基因组百科全书(KEGG)通路29的能力。
  2. 我们关注至少包含30个在数据集中表达的基因的通路。
  3. 每条通路被分为训练集和测试集,在训练集中每个基因被赋予一个值1。
  4. 然后将这些隶属值传播(方法)以对剩余基因进行评分,并评估重构测试集的质量。
  5. 结果显示在图3c中,scNET的表现优于先前的方法。
Para_03
  1. 最后,我们将我们的综合表示与PPI网络和原始计数进行了比较,以重建与不同疾病相关的基因列表。
  2. 与KEGG通路不同,这些列表不代表明确的通路,而是基因与条件之间的一般关联,使我们能够验证我们方法在结构较不明显的列表上的性能。
  3. 为了考虑网络之间存在的巨大拓扑差异,尤其是由于99%的截止值,我们的共嵌入网络要稀疏得多。
  4. 我们评估了每个网络相对于一组随机网络的预测能力(方法)。
  5. 共嵌入网络的平均z分数约为7,而PPI网络和共表达网络分别达到了3和0.5的z分数(图3d);完整结果可以在补充图7中找到。
Para_04
  1. 在图3e中,我们展示了来自不同类型的白血病和淋巴瘤的每个网络的结果,因为那些疾病与B细胞密切相关。我们观察到,在测试的九个基因列表中的六个中,我们的scNET共嵌入网络表现优于其他两个网络,而PPI网络在其余三个列表中取得了最高分。基于计数的共表达网络在任何一个列表中都没有取得最高结果。这些结果表明,我们新集成的嵌入表现优于模型的两个输入,展示了整合中的协同效应。
  2. 这些结果表明,我们新集成的嵌入表现优于模型的两个输入,展示了整合中的协同效应。
Para_05
  1. 在扩展数据图2中,我们展示了如何利用共嵌入网络来识别在不同生物条件下与关键分子差异关联的独特基因。
  2. 具体而言,我们将这种方法应用于小鼠胶质母细胞瘤多形性(GBM)数据集31,重点关注CD8+ T细胞群体。
  3. 如先前所述,P选择素敲除导致CD8+ T细胞的浸润、激活和增殖比对照组CD8+ T细胞增加。
  4. 我们试图确定scNET是否能在对照群体中识别出与T细胞激活和耗竭标记物PD1(由Pdcd1编码)差异关联的基因。
Para_06
  1. 首先,我们使用我们的模型构建了差异共嵌入网络,以学习治疗样本和对照样本不同的共嵌入结构。
  2. 然后通过将这些网络应用异或运算符来定义差异网络。
  3. 我们特别关注PD1共抑制受体,并假设差异网络可以揭示与该受体相关性改变的基因。
  4. 为了研究这一点,我们应用了网络传播(方法)来为每个基因分配一个关联(传播)分数。
  5. 我们的共嵌入网络有效地捕捉了基因之间的功能关联和关系。
  6. 因此,这种方法使我们能够识别条件之间可能不同于标准DE基础分析的差异功能关联。
  7. 我们观察到与涉及细胞因子信号传导和受体的基因的强关联,例如Il2ra和Ifng,以及像Cd28、Tnfrsf9(也称为4-1BB)和Tnfsf11这样的共刺激基因。
  8. 这些与共刺激和T细胞激活基因的差异功能关联可能表明PD1在对照条件下具有更明显的调节作用。

Evaluation of cell clustering

细胞聚类评估

Para_01
  1. 接下来,我们评估了 scNET 利用 Usoskin 等人的两个数据集来细化细胞间相似性的能力,这些数据集包括来自背根神经节(DRG)的各种感觉神经元,以及 Tian 等人提供的包含三种不同癌细胞系的数据集。
  2. 这些数据集包含真实标签(与分析流程确定的后处理注释相反),这使得它们适合于基准测试。
Para_02
  1. 对于每个数据集,我们将scNET的表现与基于原始计数的聚类、scLINE12、已建立的插补方法MAGIC22以及两个最先进的基础模型:scGPT14和GeneFormer15的表现进行了比较。
  2. 对于基础模型,我们使用了未经更多微调的预训练版本,因为scNET和其他方法以无监督的方式运行(这很重要,因为新生成的单细胞RNA测序数据集通常没有真实的细胞标签)。
  3. 在图4中,我们展示了每种方法(scNET、计数、scLINE、MAGIC、scGPT、GeneFormer)和数据集(Usoskin等人32、癌细胞系)的UMAP嵌入。
  4. 为了系统地评估嵌入空间,我们在一系列分辨率(0到1)上使用了Leiden聚类,并将调整后的兰德指数(ARI)的最大值与原始细胞标签进行了比较(图4m、n)。
  5. 我们观察到,与其他所有方法相比,scNET在这两个数据集中实现了最高的ARI。
  6. 基础模型在这两个数据集上的表现相对较弱,这表明尽管它们被设计用于在大型图谱大小的数据集上表现出色,但当应用于零样本设置到未见过的数据集时,它们区分细胞类型的能力减弱了。
  7. 这突显了开发无监督的、单数据集框架作为大型基础模型在单细胞RNA测序领域互补方法的需求。

Fig. 4: Benchmark of cell embedding and clustering.

- 图片说明

◉ a–f,DRG数据集的细胞嵌入的UMAP图,按scNET执行的真实细胞标签着色(a),原始计数(b),scLINE(c),MAGIC(d),scGPT(e)和GeneFormer(f)。◉ g–l,癌细胞系数据集的细胞嵌入的UMAP图,按scNET执行的真实细胞标签着色(g),原始计数(h),scLINE(i),MAGIC(j),scGPT(k)和GeneFormer(l)。◉ m,在DRG数据集中每个方法在分辨率范围(0,1]内通过Leiden聚类获得的最大ARI。◉ n,在癌细胞系数据集中每个方法在分辨率范围(0,1]内通过Leiden聚类获得的最大ARI。◉ 神经元类型:NF,神经丝;NP,非肽能;PEP,肽能;TH,酪氨酸羟化酶。

Para_03
  1. 经过仔细观察UMAP图,在Usoskin数据集中,我们看到,在原始计数UMAP图(图4b)中,酪氨酸羟化酶和非肽能细胞类型被分开聚类。
  2. 然而,在应用了scNET、scLINE(图4a,c)和MAGIC(图4d)后,我们观察到这些细胞类型的分离更加明显。
  3. 在癌细胞系数据集中,原始计数UMAP图(图4h)显示,虽然H228和HCCB27形成了定义明确的聚类,但H1975分裂成了两个独立的社区。
  4. 这种分离在应用了scLINE和MAGIC之后(图4i,j)仍然保留,只有scNET(图4a)成功地将H1975嵌入到一个单一且定义明确的组中。
Para_04
  1. 我们还调查了在30个周期(预剪枝)后KNN图中注意力系数的分布,如补充图8c所示。
  2. 观察到一个显著的双峰分布,其中一个峰值接近零(低质量边),另一个峰值在一点(高质量、信息丰富的边),这表明我们的模型能够有效地区分KNN拓扑中的边质量。
Para_05
  1. 最后,使用一个特征明确的细胞周期数据集34,我们检查了UMAP表示中的细胞状态分离。
  2. 原始的UMAP不足以区分S和G1状态,将它们合并成一个单一的聚类。
  3. 相比之下,来自我们模型的UMAP(补充图8a、b)显示出了更清晰的分离,S状态聚类被适当地从G1和G2聚类中分离开来。
  4. 这表明即使在全球结构中也有更准确的生物表征。
  5. 我们在嵌入空间中的Leiden聚类得到了0.46的最大ARI,超过了原始归一化计数空间中的0.35 ARI。

scNET reduces zero inflation and improves pathway analysis

scNET减少了零膨胀并改进了通路分析

Para_01
  1. 我们假设重建的基因表达不仅准确反映了原始的基因表达谱,而且还整合了来自PPI网络的更多信息。这种整合有望为单细胞数据中的通路激活和复杂生物过程提供更详细的表征。
  2. 这将有助于更详细地描述途径激活和复杂的生物过程在单细胞数据中的情况。
Para_02
  1. 为了验证我们重建的基因表达数据的质量,我们首先评估了重建的基因表达是否准确地捕捉到了不同细胞群体的独特表达动态。
  2. 我们将 scNET 应用于 GL261a 小鼠脑肿瘤模型数据集31,并可视化了不同细胞群体的重建基因标记(图5a)。
  3. 重建的细胞根据其细胞类型进行了聚类,证明了 scNET 能够捕捉到细胞类型的差异。
  4. 此外,标记基因的表达值与其各自的细胞群体表现出强烈的关联性。
  5. 例如,Cd4 和 Cd8a 的表达准确对应于它们各自的 T 细胞亚群;Cd14 有效地识别了巨噬细胞;而 P2ry12 则精确地捕获了小胶质细胞。

Fig. 5: Reconstructed gene expression allows for better capture of pathway activity across different cell types and conditions in GBM tumor microenvironment.

- 图片说明

◉ a, 重建的细胞类型相关标记基因面板。◉ b, 在scNET重建的基因表达差异基因分析后不同细胞类型的前20条富集通路热图。ECM,细胞外基质;GPI,糖基磷脂肌醇;NSF,N-乙基马来酰亚胺敏感因子;SNARE,可溶性NSF附着蛋白受体。◉ c, 在原始基因表达差异基因分析后不同细胞类型的前20条富集通路热图。NOD,核苷酸结合寡聚化结构域。◉ d, 使用GSEA调整P值比较P选择素抑制处理CD8+ T细胞与对照组中富集通路的变化。前九条通路与T细胞和免疫激活有关(绿色),而其余通路则是相对于T细胞相关基因被耗尽的通路。Akt,蛋白激酶B;IL,白细胞介素;JAK,Janus激酶;MAPK,丝裂原活化蛋白激酶;PD1,程序性细胞死亡蛋白1;PD-L1,程序性细胞死亡配体1;PI3K,磷脂酰肌醇3-激酶;STAT,信号转导和转录激活因子;TCA,三羧酸循环。

Para_03
  1. 为了进一步评估零膨胀的减少和标记基因表达的准确性,我们基于每种细胞类型的相应标记基因计算了每个细胞类型的AUPR。
  2. 我们将原始计数数据、scNET重建数据以及MAGIC和DeepImpute的插补数据的AUPR得分进行了比较(表1)。
  3. 我们的结果显示,scNET在所有细胞类型中始终获得更高的AUPR得分,这提供了强有力的证据,证明重建的数据可靠地捕捉到了潜在的基因表达动态。

Table 1 AUPR of marker gene expression for identifying different cell types 表1 标记基因表达用于识别不同细胞类型的AUPR

Para_04
  1. 接下来,我们评估了使用重建基因表达数据进行差异基因表达分析的质量。
  2. 我们假设,通过整合蛋白质相互作用网络,重建的基因表达将更好地捕捉到不同簇和细胞群体之间的差异途径,从而提高生物学推断。
  3. 我们重点关注了数据集中四个主要的细胞群体:T细胞、巨噬细胞、小胶质细胞和癌细胞。
  4. 我们应用了标准的差异基因表达分析方法,并且每种细胞群体的差异表达基因被用来计算富集的KEGG通路。
  5. 在图5b中,我们展示了每种细胞群体的前20条最富集的通路。
  6. 我们的分析表明,scNET重建的数据捕获了与每个群体相关的相关通路。
  7. 例如,T细胞在诸如‘T细胞受体信号通路’、‘人类T细胞白血病病毒1感染’和‘TH17细胞分化’等通路中富集。
  8. 小胶质细胞显示在与其神经元相互作用相关的通路中富集,如‘谷氨酸能突触’和‘逆向内源性大麻素信号传导’。
  9. 癌细胞在诸如‘细胞周期’、‘氧化磷酸化’和‘DNA复制’等增殖和代谢通路中富集,同时也富集在与神经退行性疾病相关的通路中,如‘帕金森病’,这与已知的GBM机制相似。
  10. 巨噬细胞在与其功能相关的通路中上调,如‘溶酶体’、‘细胞因子-细胞因子受体相互作用’和‘吞噬体’,这也与小胶质细胞共享。
Para_05
  1. 为了比较,我们在原始基因表达数据上进行了相同的分析(图5c)。
  2. 结果显示,偏向巨噬细胞的趋势很强,涉及‘凋亡’、‘B细胞受体信号传导’和‘阿尔茨海默病’等通常不与该细胞群体相关的通路显著富集。
  3. 相比之下,其他细胞群显示出显著较少的通路富集。
  4. 这表明原始数据倾向于巨噬细胞,而scNET能够对此进行校正。
Para_06
  1. 最后,我们测试了scNET重建的基因表达是否能够在不同的生物条件下识别同一细胞群体内的差异动态。
  2. 我们使用了一个包含对照样本和用P选择素抑制剂处理的样本的数据集,这种处理减少了GBM小鼠模型中的肿瘤生长并改善了生存率。
  3. 我们的分析集中在CD8+ T细胞群体上,根据Yeini等人31的研究,这种细胞在P选择素抑制后表现出增加的肿瘤浸润和激活。
  4. 然而,标准的单细胞RNA测序分析并未显示出与对照相比转录组层面的显著变化,这使得这一群体成为测试scNET检测上调通路能力的理想候选者。
Para_07
  1. 鉴于已知P选择素抑制与激活的CD8+ T细胞群体增加之间的关联,我们旨在确定是否可以通过使用scNET嵌入空间的途径导向方法揭示此类关联。
  2. 我们选择了九条与T细胞激活相关的KEGG通路,包括‘T细胞受体信号传导’和‘NF-κB’等通路。
  3. 我们使用了scNET框架上的差异表达分析,结合原始计数,使用GSEA评估每条通路的差异富集情况。
  4. 我们的分析发现,在scNET网络中,九条与T细胞相关的通路中有八条显著富集,而使用原始计数时未检测到任何一条通路的富集。
Para_08
  1. 为了验证这些结果的特异性,我们构建了一个与T细胞无关的阴性路径集。
  2. 利用MSigDB免疫特征模块26,我们编制了一个与T细胞相关的综合基因库。
  3. 在这个数据库中进行的详尽搜索确定了776个与T细胞相关的特征。
  4. 我们选择了至少出现在这1%特征中的基因,并识别了相对于这些基因而言富集程度较低的路径(使用超几何评分)。
  5. 这些路径包括‘核糖体’、‘剪接体’和‘脂肪酸生物合成’,它们作为我们的阴性集。
  6. 使用相同的GSEA分析,scNET相对于原始计数产生了较低的富集评分,表明具有高度特异性(图5d)。

Discussion

Para_01
  1. 识别途径和复合体在不同生物条件下如何被激活对于全面理解比较系统分析中观察到的生物转变至关重要。
  2. 在大规模RNA测序中,共表达和差异共表达分析是基本的推理工具。
  3. 然而,由于单细胞RNA测序的零膨胀性质以及该数据类型典型的关联性减弱,这些方法在单细胞RNA测序中并不像在大规模测序中那样有效。
  4. 因此,开发创新工具来克服这些限制,并进一步识别和分析特定条件下的途径激活对于单细胞基因组学充分发挥其巨大潜力至关重要。
Para_02
  1. 在这项研究中,我们介绍了一个前沿的深度学习框架scNET,它将scRNA测序数据与PPI网络相结合。
  2. 与传统数据集不同,传统数据集将样本和特征明确分开,我们的集成数据集呈现了一种独特的双重性。
  3. 在这里,细胞被表示为基因表达测量的向量,而基因则由跨越各种细胞的表达向量来表征。
  4. 我们认为,利用这种双重性质的模型将实现更优的性能。
Para_03
  1. 随后,我们制定了一种基于GNN架构的自动编码器模型。
  2. 我们提出的模型包含了两个图和一个节点特征矩阵。
  3. 一个网络捕捉了行所代表的关系,这些行表示样本,而另一个网络则描绘了列所展示的关系。
  4. 通过这种双图编码器,节点特征矩阵中的值在这些网络之间流动,实现了相似细胞(列)和相互作用基因(行)之间的同步信号传播。
Para_04
  1. 为了评估我们的方法的有效性,我们引入了一个细致的验证框架。
  2. 这个框架衡量了我们的方法在识别通路和功能共注释方面的熟练程度,相对于该领域的相关工作。
  3. 我们的研究结果强调了我们的方法在将全局生物网络与特定上下文的基因表达相结合方面的优势。
  4. 通过我们的模型,我们能够辨别出GBM肿瘤微环境在接受治疗(P选择素抑制)后的不同通路激活。
  5. 这揭示了治疗的功能影响,而这些影响在仅依赖传统的差异基因表达分析或原始独特分子标识空间中的共表达分析时仍然难以捉摸。
  6. 这些证据表明,我们的集成嵌入空间提供了更深刻的视角来理解复杂的生物系统,关注的是更广泛的通路而不是单一的基因表达。
Para_05
  1. 需要注意的是,尽管蛋白质相互作用(PPIs)包含了关于基因相互作用的关键信息,但它们并不涵盖那些通过间接方式介导的关键调控事件,例如涉及转录因子的事件。
  2. 这些相互作用在调节细胞内的基因表达方面发挥着显著作用,并且它们的纳入对于全面理解基因-基因关系至关重要。
  3. 然而,将它们整合到现有框架中可能并不简单。
  4. 例如,已知许多转录因子在不同条件下表达水平保持稳定,但它们的定位和磷酸化可能会因为激活而发生变化。
  5. 通过单细胞转座酶可及染色质测序技术等手段获得的这些指标,可以进一步改进scNET嵌入。
Para_06
  1. 此外,我们提出了一种独特的方法来构建一个更为精细的细胞间相似性图。
  2. 通过在KNN图上实施注意力机制,我们有效地修剪了次优边,放松了每个细胞本质上与固定数量的K个其他细胞相似的基本假设。
  3. 尽管我们的研究主要旨在阐明和验证基因嵌入空间,但我们的模型能够准确捕捉细胞间关系的能力已经显现为一个有前景的方面。
  4. 这为利用注意力机制来辨别单细胞RNA测序数据中的细胞间相似性的创新计算方法铺平了道路。
Para_07
  1. 除了单细胞RNA测序(scRNA-seq),KNN是机器学习中用于数据填补的一种成熟方法。
  2. 我们提出的方法框架将这种方法整合进其架构中,提供了一种更连贯的方式来处理噪声和缺失值,并使模型能够优化不同对象之间的关系。
  3. 因此,我们认为我们的创新框架超越了scRNA-seq数据应用,可以应用于具有类似双重特征的其他数据集。

Methods

Gene expression datasets

基因表达数据集

Para_01
  1. 以下scRNA测序数据集已在本研究中使用:

[ol]- 1. Human malaria-associated B cells: described in ref. 42, containing 7,044 cells over 19,374 genes. - 2. Mouse visual cortex: described in ref. 43, containing 65,540 cells over 25,187 genes. - 3. Human cell line: described in ref. 33, containing 902 cells over 16,468 genes from three different human cell lines (H1975, H2228, HCC827). - 4. Mouse embryonic stem (mES) cell cycle: described in ref. 44, containing 275 cells over 23,506 genes, each gene is labeled according to its cell cycle state (G1, G2/M, S). - 5. GBM mouse model: described in ref. 31, containing 9,175 cells over 18,531 genes from control and treatment (inhibition of P-selectin) samples. - 6. Usoskin’s DRG: described in ref. 32, containing 799 cells over 25,334 genes from the DRG of the mouse identified by known markers associated with their function. - 7. Glioma tumor-reactive CD8+ T cells: as described in ref. 45, this dataset contains 4,231 T cells over 14,202 genes from the mouse glioma tumor microenvironment. All T cells were H-2Kb-SIINFEKL dextramer-positive (Dext+).

Data prepossessing

数据预处理

Para_01
  1. scRNA-seq 表达数据使用标准的 Scanpy 包(版本 1.9.1)进行了预处理。
  2. 简而言之,该流程包括以下步骤:

[ol]- 1. log normalization: feature counts for each cell are divided by the total counts for that cell and multiplied by a scale factor, finally log1p is applied. - 2. Variance-based filtering: scNET learns to reconstruct a subset of expressed genes that exhibit high variance across the dataset, as described below. To identify these genes, we used the highly_variable_genes function, which calculates gene-wise variance after mean normalization. The default cutoff was applied to obtain the final subset of highly variable genes. - 3. Dimensionality reduction: principal component analysis and UMAP are calculated from the scale-normalized data matrix, where each feature normalized expression is scaled across the cells. The number of principal components for the clustering was selected manually based on an elbow plot showing the gain in variance with each further vector. - 4. KNN graph: KNN was calculated for each cell in the data and a KNN graph was constructed in the reduced principal component analysis space. - 5. Scaling: we found that our model works best with scaled gene expression data. Therefore, we applied standard scaling to the log-normalized expression, where each gene’s expression is normalized to have a mean of 0 and s.d. of 1.

Para_02
  1. 一个加权的人类蛋白质相互作用网络被使用,过滤掉了得分低于0.5的边。
  2. 过滤后的网络涵盖了14,136种蛋白质和111,790次相互作用。
  3. 我们进一步移除了所有对应于在scRNA数据中未表达基因的节点(在所有细胞中表达量均为零)。
  4. 为了从标准化的基因表达矩阵构建节点特征矩阵,我们过滤掉了在网络中没有边表示或在scRNA数据中未表达的基因。

The encoder

编码器

Para_01
  1. 我们提出的模型通过学习基因和细胞嵌入来整合scRNA-seq和PPI数据,这些嵌入有效地捕捉了网络结构和表达信息,同时降低了数据的噪声水平。
  2. 具体来说,我们的编码器架构(图1)交替应用卷积层来在相似细胞之间聚合信息,因此填补缺失值并降低噪声水平,然后在转置矩阵上再应用另一个卷积层来在相互作用的蛋白质之间聚合信息。
  3. 聚合的信息随后通过图注意力层产生潜在表示。
Graph convolution layer

图卷积层

Para_01
  1. 卷积层47将每个节点周围的节点信息聚合,形成输出节点特征向量。
  2. 形式上,我们可以定义G = (V, E),其中包含N = ∣V∣个节点和邻接矩阵A ∈ RN×N以及节点特征矩阵X ∈ RN×F。
  3. 单个卷积层的输出为σ (Ãδ (X)W),其中σ是激活函数,δ是dropout,Ã=D¯^(-1/2)AD¯^(-1/2),D是图的对角度矩阵,而Ã=A+I。
Graph attention layer

图注意力层

Para_01
  1. 通过引入注意力机制,我们的模型通过学习图中每条边的权重来改进细胞-细胞相似性图(KNN)。
  2. 这些权重表示模型在重构细胞i的基因表达时对细胞j的重要性。
  3. 我们认为每个细胞与固定数量K的其他细胞相似这一假设是任意的,并可能导致包含错误的边。
  4. 因此,在我们的框架中,我们使用学习到的注意力权重作为修剪低质量边的基础。

错误!!! - 待补充

Para_03
  1. 其中 N(i) 是网络中节点 i 的邻居,注意力系数为:
Para_04
  1. W1、W2、W3和W4是学习得到的矩阵。
Para_05
  1. 在我们的实现中,我们修改了原始的激活函数,用sigmoid函数替换了按节点的softmax函数。
  2. 这一改变意味着边的得分不再按节点进行归一化,使我们能够如下面所述那样修剪全局低分边。
KNN graph pruning using attention coefficients

使用注意力系数进行KNN图剪枝

Para_01
  1. 使用KNN平滑细胞间的表达假设每个细胞与数据集中任意其他K个细胞相似。然而,这一假设可能在生物学上不准确,因为来自不同群体和状态的细胞在数据中可能以不同的数量表示。
  2. 为了解决这个问题,我们建议使用学习到的关注系数来修剪低质量的边。具体来说,我们计算并定义图的新边集为:
Para_02
  1. P10 是第 10 个百分位,β 定义为 (\max (0,{P"}_{10}))。
  2. ,
Para_03
  1. 因此,注意力层的引入不仅帮助模型学习到更有意义的细胞和基因潜在表示,而且还使模型能够学习KNN网络的新拓扑结构,从而使图更好地捕捉细胞间关系。

The complete autoencoder model

完整的自动编码器模型

Para_01
  1. 我们的最终自动编码器模型如图1所示。
  2. 首先,KNN图、PPI网络和基因表达矩阵被输入到一个三层的双视图编码器(细胞的图卷积网络的三层和基因的图卷积网络的三层)。
  3. 接下来,我们利用单层图注意力来学习两个密集的潜在表示(使用KNN图作为细胞注意层和使用PPI作为基因注意层),一个用于基因,另一个用于细胞。
  4. 最后,我们应用内积解码器重建PPI网络,并应用三层全连接解码器重建基因表达。
Para_02
  1. 在训练过程中固定时间间隔内,我们还像上面讨论的那样修剪了KNN图。
  2. 训练结束后,模型返回基因和细胞的嵌入向量,以及修剪后的KNN图和基因表达的重构。
  3. 损失函数结合了PPI重构和基因表达重构的损失。
Para_03
  1. 内积解码器定义为 (\hat{A"}=\sigma (ZZ^{T"})),其中 Z 是基因的潜在表示,σ 是 Sigmoid 激活函数。
  2. 我们用 Zpos 表示训练后的蛋白质相互作用网络中的边集合,用 Zneg 表示随机采样的负边集合,并且满足 |Zpos| = |Zneg|。
  3. 然后我们定义:
Para_04
  1. 如上所述,我们首先选择一组在数据集中表现出显著变异的基因子集。我们将这个子集表示为Mv。
  2. 然后,我们在该子集中的基因上使用均方误差(m.s.e.)损失函数来训练模型。
  3. 正式地,我们定义:
Para_05
  1. 这里 ((\hat{{\bf{M"}}}_{{\mathrm{v"}}})) 是 Mv 中基因表达水平的重建向量。
  2. 让我们一步一步地思考。
Para_06
  1. 我们的最终损失函数是:
  2. 让我们一步一步地思考。
Para_07
  1. 其中 λPPI 和 λv 是模型的超参数。

Network evaluation

网络评估

Para_01
  1. 为了评估我们研究中各种网络的预测能力,我们关注了已知的功能组,例如那些在KEGG通路中定义的。
  2. 通常,每个组被分为训练集和测试集,比例为三分之二对三分之一。
  3. 然后,我们应用随机游走重启方法49将训练组的成员资格传播到所有其他节点。
  4. 传播得分被用作成员资格得分来计算每个网络的曲线下面积(AUC)得分。
  5. 具体而言,给定邻接矩阵W和节点度数矩阵D,通过以下公式迭代计算传播:
Para_02
  1. 其中 F0 表示输入的二进制隶属向量,(W' = D^{-1/2}WD^{-1/2}) 是网络的归一化邻接矩阵。
  2. 为了考虑节点中心性,我们将得到的向量 F∞ 按元素分别除以使用全 1 输入向量获得的传播得分进行归一化。
Para_03
  1. 此外,为了评估具有不同数量边的网络,我们实现了一个无拓扑结构的评估框架,将每个网络的预测能力与一组随机置换图进行比较,如前所述30。
  2. 为此,我们使用了一个包含230个与各种疾病相关的基因列表的数据库。
  3. 对于每个网络,我们生成了30个度数保持的随机网络,以建立背景分布。
  4. 基因列表被分割为训练集和测试集,通过训练集启动的网络传播用于预测测试集。
  5. 对每个网络计算了AUC得分,并使用随机网络上的得分分布将其转换为z得分。

Implementation and training

实施和训练

Data availability

Para_01
  1. 在这项研究中,我们使用了如方法部分所述的公开可用的数据集,这些数据集可以通过Gene Expression和ArrayExpress访问。
  2. 使用的具体数据集包括:疟疾相关B细胞数据集(GSE149729),小鼠视觉皮层数据集(GSE102827),人类细胞系数据集(GSE118767),mES细胞周期数据集(E-MTAB-2805),胶质母细胞瘤数据集(GSE156663),Usoskin的DRG数据集(GSE59739),以及胶质瘤肿瘤活化CD8 T细胞数据集(GSE154795)。

Code availability

Para_01
  1. scNET 可以通过 GitHub 下载,网址是 包括所有必要的文件和 conda 环境,并且可以通过 PyPi 作为官方 Python 包下载,网址是 /。同时还包含了一个说明如何使用 Google Colab 平台运行该模型的笔记本(推荐)。
  2. A notebook illustrating how to run the model using the Google Colab platform (recommended) is included as well.
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。原始发表:2025-04-10,如有侵权请联系 cloudcommunity@tencent 删除natmethods模型数据网络

本文标签: scNET,将scRNAseq数据与PPI网络整合以更好地捕捉基因注释通路表征以及基因间关系