单细胞不同基因集选择方法会怎样影响下游结果？-369IT编程

admin管理员组
文章数量:1030009

单细胞不同基因集选择方法会怎样影响下游结果？

Basic Information

英文标题：Feature selection methods affect the performance of scRNA-seq data integration and querying
中文标题：特征选择方法影响scRNA-seq数据整合和查询的性能
发表日期：13 March 2025
文章类型：Registered Report
所属期刊：Nature Methods
文章作者：Luke Zappia | Fabian J. Theis
文章链接：

Abstract

Para_01

单细胞转录组学的可用性已经允许构建参考细胞图谱，但它们的有用性取决于数据集整合的质量以及将新样本映射的能力。
先前的基准测试比较了整合方法，并表明特征选择可以提高性能，但没有探索如何最好地选择特征。
在这里，我们使用超出批次校正和保留生物学变异的指标来评估查询映射、标签转移和检测未见群体的方法，对用于单细胞RNA测序整合的特征选择方法进行基准测试。
我们通过显示高可变特征选择对于产生高质量整合是有效的，从而强化了常见做法，并提供了有关所选特征数量、具有批次意识的特征选择、谱系特异性特征选择以及特征选择与整合模型之间相互作用效果的进一步指导。
这些结果对于从事大规模组织图谱分析的研究人员来说是有用的，他们使用图谱或整合自己的数据来解决特定的生物学问题。

Main

Para_01

单细胞转录组学技术现在对许多生物研究人员来说已经触手可及。
随着单细胞RNA测序（scRNA-seq）数据集的数量增加和分析方法的改进，我们看到从探索性实验转向多样本数据集的趋势。
这一趋势包括更多针对特定现象进行设计的实验或测试不同条件之间的差异，以及更大的努力来编目组织内的细胞异质性。
更多的样本允许对生物学进行更深入的研究，但也带来了额外的挑战，包括成功整合样本以去除技术差异同时保留有趣的生物学变异。
对于大规模的人体图谱构建项目而言，良好的质量整合尤为重要，因为全面捕捉组织异质性需要来自不同个体、不同地点、以不同方式收集的不同器官区域，并使用一系列协议或技术进行分析。

Para_02

许多计算科学家已经解决了整合问题，目前已有至少250种工具可用于单细胞整合。
研究已经评估了一些方法的性能，从而形成了一套用于评估整合性能的标准指标。
尽管已经对这些方法进行了比较，但可能影响整合的预处理步骤大多被忽视了。
一个受到一定关注的步骤是特征选择，基准测试表明使用高变异性基因通常会导致更好的整合；然而，这项研究只考虑了一种常用的特征选择方法。
与其他分析步骤（如聚类）不同，尚未评估整合的最佳特征选择方法。
当考虑到如何将整合空间作为参考来进一步分析查询样本时，还会产生一些其他问题。
有可能选择特征可以更好地整合参考样本，但同时可能导致一个对理解其他样本相关的生物变异来源视而不见的整合模型。

Para_03

这项研究评估了特征选择对整合单细胞RNA测序样本的影响，并使用整合后的参考来分析查询样本。
我们使用分为五个类别的多种指标评估了超过20种特征选择方法的变体的表现：批次效应消除、生物变异的保留、查询到参考映射的质量、标签传递质量以及检测未见群体的能力（扩展数据图1）。
我们稳健基准管道的结果（扩展数据图2）对于研究人员整合他们自己的数据集或创建参考图谱很有信息价值，从而产生更好的社区资源和进一步的生物学见解。

Para_04

该研究遵循在.6084/m9.figshare.24995690.v1注册并经过同行评审的协议（参考文献9）。除预先注册和批准的试点数据外，论文中报告的所有分析结果均在注册协议发布日期之后收集。
除预先注册和批准的试点数据外，论文中报告的所有分析结果均在注册协议发布日期之后收集。

Results

Metric selection is critical for reliable benchmarking

度量选择对于可靠的基准测试至关重要

Para_01

为了这项研究，我们收集了涵盖不同方面整合和查询映射的各种指标。
虽然测量广泛的因素很重要，但许多这些指标的行为尚未得到充分表征。
这种表征在这个背景下尤为重要，因为我们使用开发来比较不同整合方法的指标来评估特征选择方法的影响。
出于这个原因，我们包括了一个指标选择步骤来分析指标，并决定哪些用于基准测试。
这一步旨在选择能够有效衡量性能、不过度关联技术因素且不冗余的指标。

Para_02

我们使用随机和高度可变（scanpy10实现的Seurat算法11）特征集对每个数据集的不同大小进行度量选择，执行整合和映射，计算度量分数并比较结果（图1a）。
使用每个数据集-整合组合的随机基因集计算得分范围。
我们还使用随机集来计算度量与数据集的技术方面（特征数量、参考细胞数量、参考标签和批次数量、查询细胞数量和查询批次及未见标签数量）之间的相关性。
我们使用高度可变的特征集计算度量分数与所选特征数量之间的相关性，因为随机特征集没有内在排序（前100个特征并不比接下来的100个特征更具信息量）。
理想的度量标准应能准确测量其设计的目标，在整个输出范围内返回的数据技术特性独立的分数，并且与其他研究中的度量标准正交。
图1b显示了度量评估的总结。

Fig. 1: Overview and results of the metric selection step.

- 图片说明

◉ a, 指标选择工作流程图。◉ b, 指标选择步骤的结果。显示了每个指标在观测范围内和跨数据集及整合的数据与特征数量之间的相关性密度。◉ 颜色表示平均值，垂直线代表中位数。中间的热图显示了与技术数据集特征的平均相关性（扩展数据图3a）。◉ 颜色表示平均相关性，方块的大小表示标准差（点越大表示越少变化）。右侧的热图显示了按指标类型分组的指标之间的平均相关性（扩展数据图3b）。◉ 左侧的颜色条指示了最终基准中选定的指标。这种指示在其他图表中以阴影区域继续显示。

Para_03

使用这些结果，我们选择了评估特征选择方法的指标。
我们发现一些指标，例如批次平均轮廓宽度（Batch ASW）和k近邻（kNN）相关性，即使在广泛选择的特征集范围内也显示出很少的变化；然而，这并不总是容易解释。
例如，细胞类型局部逆辛普森指数（cLISI）指标的自然范围是从零到数据集中标签的数量，这些被重新调整为在零和一之间，压缩了观察范围，使得即使是小的差异也可以是有信息量的。
在考虑指标与所选特征数量之间的相关性时，我们发现大多数指标与所选特征数量呈正相关，平均相关性约为0.5。
少数指标（局部结构和kNN相关性）与特征数量显示出更强且更一致的关联。
相反，映射指标通常与特征数量呈负相关。
这种关系可能是因为较小的特征集产生更嘈杂的集成，在这里细胞群体是混合的。
在这种情况下，需要较少精确的查询映射，只需在混合群体内某处进行映射就足以获得较高的映射分数。

Para_04

技术因素对数据集指标分数的影响更难以解释，因为我们考虑的数据集相对较少，并且这些因素在数据集中是相互关联的（通常包含更多细胞的数据集会有更多的批次和标签）。
我们发现，更复杂的数据集通常会导致所有指标的分数降低（扩展数据图3）。
例外情况是Milo15和不确定性指标。
对于Milo，很难说分数和技术因素之间的正相关关系是拥有更多数据的一般效应还是个别特征的效应。
就不确定性指标而言，很可能使用的分类器模型没有很好地校准，并且无论有任何特定的技术因素，对于更复杂的数据集都会显得不够确定（给出更高的分数）。
正确评估技术数据集特征的效果需要更多的数据集，在这些数据集中每个因素独立变化，可能通过模拟研究来实现。

Para_05

也许在度量选择中最重要的是考虑度量之间的相关性（图1b和扩展数据图3）。
我们希望度量能够衡量整合和查询映射的不同方面，如果选择几个高度相关的度量，则会使我们的结果偏向这一方向。
这种影响在Integration (Bio)类别中很明显，在该类别中，有几个度量（调整后的兰德指数(ARI)，批次平衡的ARI(bARI)16，归一化的互信息(NMI)，批次平衡的NMI(bNMI)16，cLISI，标签平均轮廓宽度(Label ASW)3和局部结构）彼此之间高度相关，促使我们只选择其中的一部分。
分类度量显示出更强的相关性，所有度量的得分相似。
在这里，我们也选择了代表性的度量样本，但仅使用一个或全部度量对结果影响很小。
度量相关性的另一个考虑因素是不同类型的度量之间的相关性。
为了便于解释，我们希望能够单独总结这些方面，而不同类型度量之间的相关性使这变得困难。
对于kBET度量来说，这种分类很难（图1b和扩展数据图3），它被放在Integration (Batch)类别中，但也与衡量生物变异保守性的度量相关。
虽然这对于单一度量可能是可取的，但在研究中包括kBET会使这些类别的信号混淆。
另一个突出的度量是图连通性3，原始作者认为它是批次校正度量，但它与其他类别中的度量负相关，与Integration (Bio)度量正相关。
我们在评估中保留了这个度量，但在所有进一步分析中将其包含在Integration (Bio)类别中。

Para_06

基于此分析，我们选择了三个集成（批次）指标（批次主成分回归（Batch PCR）3，细胞特异性混合评分（CMS）和集成局部逆辛普森指数（iLISI）13），六个集成（生物）指标（孤立标签ASW3，孤立标签F1（参考文献3），bNMI，cLISI，局部密度因子差异（ldfDiff）18和图连通性），四个映射指标（细胞距离12，标签距离12，映射局部逆辛普森指数（mLISI）12和查询局部逆辛普森指数（qLISI）12），三个分类指标（F1（宏），F1（微）和F1（稀有）19）以及三个未见群体指标（Milo，未见细胞距离和未见标签距离）。
扩展数据表1给出了我们排除指标的理由。

Using baselines to effectively scale and summarize metrics

使用基线有效扩展和总结指标

Para_01

个体指标具有不同的有效范围，并且与数据集的交互方式不同。为了总结和比较指标分数，需要将它们调整为每个数据集具有相同的范围。
我们使用了一种基于基线方法的缩放方法，类似于单细胞分析项目所使用的20。我们使用了四种基线方法：所有特征，使用scanpy-Cell Ranger21方法（批处理感知变体）选择的2,000个高可变特征（作为通常建议的良好实践代表3,22），500个随机选择的特征（分数在五个特征集中平均），以及使用scSEGIndex方法选择的200个稳定表达的特征（作为不应捕获信号的阴性对照）。
我们使用单细胞变异推断（scVI）24来使用选定的特征整合每个数据集。
这些方法足够多样化，可以展示每个指标的有效范围，并使我们能够为每个数据集建立基线范围（图2a）。

Fig. 2: Establishing baseline ranges and scaling and aggregating metrics.

- 图片说明

◉ a, 选定指标的基线范围。每个面板显示单个指标的所有数据集的基线分数。按指标类型着色的阴影区域显示基线范围，点表示各个基线方法的值。◉ b, 使用scIB胰腺数据集作为示例进行度量缩放和聚合的过程。显示了实际的基线方法和理论上的‘好’和‘坏’方法。首先测量指标，然后使用基线范围对值进行缩放。如果一种方法的表现优于或差于基线，则缩放后的值可能大于一或小于零。计算每种指标类型的平均分数，并通过以下公式计算总体分数，该总体分数是类别分数的加权平均值。

Para_02

我们使用基线范围缩放了指标分数，并如图2所示进行了汇总，以scIB胰腺数据集为例。该数据集也在注册报告的第一阶段中使用。
除了实际的基线方法外，我们还包括了理论上的‘好’和‘坏’方法，这些方法展示了在不同类型的指标中表现普遍良好或较差的方法的行为（与基线不同，基线在某些指标类型上得分高，在其他指标类型上得分低）。
原始指标分数相对于最小和最大基线分数进行缩放。
缩放后，如果一种方法的表现优于所有基线（例如‘好的’理论例子），则可能得到大于一分的分数；如果一种方法的表现比所有基线都差（例如‘坏的’理论例子），则可能得到负分。
超出参考范围的分数的可解释性是这种缩放方法的一个优势，为缩放后的值提供了额外的上下文。
我们通过取该类别的缩放值的平均值得到了每个指标类型的总结分数。
最终的整体分数是根据类别分数加权平均计算得出的（图2b）。

Para_03

我们选择了这种加权方案，以便在整合查询的参考和映射时给予相等的重要性，并且在这之中对不同的度量类型给予平等的考虑。
虽然总体分数很有用，但我们还在以下各节中提供了每种度量类型的分数。

The number of selected features affects performance

所选特征的数量影响性能

Para_01

除了用于选择特征的方法外，所选特征的数量影响整合和查询映射的成功。
对每种选择方法评估不同的特征集大小是最理想的，但在计算上是不可行的。
相反，我们测试了来自 Seurat 和 scanpy 包的常用方法以及选择表达量最高或变异最大的特征的简单方法的不同特征数量。

Para_02

图3a显示了标准化汇总分数（每个数据集和方法组合的z分数），突出了特征数量的趋势。
我们看到专注于批次校正的类别与那些测量生物学变异的类别呈现出不同的趋势。
整合（批次）得分在小特征集合时显示出最高值，并且随着特征数量的增加而减少。
映射类别显示了一个相似但不那么极端的趋势，在大约500个特征后趋于平均值。
其他类别显示了不同的模式：在特征数量增加后趋于平稳（分类和未见群体）或下降（整合（生物））。
这些模式反映了通过创建一个嘈杂的集成嵌入（单一嘈杂的细胞群）可以实现高批次校正得分。
在这种情况下，批次在参照组和查询组中将很好地混合在一起，但细胞类型之间没有分离，导致其他类别的得分较低。
由于这种影响，我们在选择特征数量时给予了整合（批次）类别较少的考虑。
总体得分趋势与生物学类别类似，在选择的特征数量在500到5,000之间时达到峰值。

Fig. 3: Effect of the number of selected features on metric performance.

- 图片说明

◉ a, 通过数据集和方法标准化后的不同特征数量的每个指标类别和总体分数的度量值。点表示各个标准化值，连接线的大菱形显示每个特征数量的平均值。◉ b, 按照指标类型对每个数据集进行标准化值的热图（扩展数据图4a）。颜色表示平均标准化值，方块的大小表示标准差（较小的方块表示更大的变异性）。方法使用层次聚类进行排序。◉ c, 类似于b的热图，但行代表方法而不是数据集（扩展数据图4b）。

Para_03

虽然每个指标类别都有明显趋势，但也存在显著差异。图3中的以下面板显示了数据集和方法的平均标准化值。
我们看到，方法在数据集之间大致一致（图3c）。Seurat-VST25、scanpy-SeuratV3和scanpy-Seurat方法在特征数量上略高一些峰值，而statistic-Variance和statistic-Mean方法在集成（批次）和集成（生物）中特征数量较低的峰值，但在分类和未见群体中特征数量较高的峰值（扩展数据图4）。
这一模式表明，通过这些简单的方式选择特征可以返回在参考中捕获信息较好的集合，但与更复杂的方法相比，在查询中则不如后者好。

Para_04

我们看到，在对每个数据集的方法进行平均时，最高得分的特征数量表现出更多变化（图3b和扩展数据图4）。
具有最少细胞数的两个数据集（splat和scIB胰腺）显示出不同的模式。
对于模拟的splat数据集26，只需要很少的特征就能捕捉到存在的变异。
相比之下，对于scIB胰腺数据集，最高分数与更高数量的特征相关联。
这些差异反映了这两个数据集的特性，模拟的splat数据产生的数据比真实数据集复杂度低，而scIB胰腺数据集包含了来自多种技术的数据，给整合带来了挑战。
更大的胎儿肝脏数据集在查询类别中也需要更多的特征才能获得高分，在使用所有特征的情况下，映射和未见群体类别的最高平均值。
这一趋势表明，从参考集中选择的特征集未能捕捉到该数据集查询中的信息。
虽然不那么明显，但这种趋势在所有数据集中都存在，分类和未见群体类别相比整合（生物）类别需要更多的特征才能获得高分；
然而，选择所有特征的表现显示了获取额外信号的限制。
特征数量在何时达到饱和点尚不清楚，这可能因每个数据集的生物学和技术多样性不同而异。

Para_05

基于这一分析，在以下评估中我们对大多数方法使用了2000个特征，因为这个数量在数据集、方法和度量类别上始终产生了高分。
对此的例外是那些动态选择特征数量的方法（Anticor27、DUBStepR28、NBumi29、Seurat-MVP11和triku30）以及单细胞投影非负矩阵分解（scPNMF）31，对于这些方法文档建议使用的特征少于我们使用的其他方法，我们使用了200个特征。

Highly variable features and supervised methods perform well

高度可变的特征和监督方法表现良好

Para_01

在确定了要使用的特征数量后，我们比较了特征选择方法。
我们成功地在所有数据集上运行了大多数方法；然而，NBumi 在 24 小时内未能完成对 Reed 乳腺数据集的处理。
scPNMF 超过了 400 GB 内存限制或在 24 小时内未能完成对人类肺细胞图谱（HLCA）数据集、HLCA 免疫数据集、HLCA 上皮数据集、人类内胚层数据集和 Reed 乳腺数据集的处理。
Anticor 对人类内胚层数据集产生了意外错误。

Para_02

图4a展示了每个度量类别下的整体结果，按scVI整合的各数据集平均总体得分排序（扩展数据图5a）。
几种方法获得了相似的平均总体得分。
Wilcoxon方法是唯一使用细胞标签选择特征的方法，具有最高的平均总体得分，但在不同数据集中的变化性大于其他表现优异的方法。
这种更高的变化性表明，即使使用相同的标签进行评估，监督特征选择可能并不适用于所有数据集，并且可能需要调整通过这种方法选择的特征数量。
Seurat-VST方法获得了最高的总体排名，其他几个高度变化的特征选择方法也表现良好，平均得分相似，性能更为一致。
另一种表现优异的替代方法是triku，其总体得分与高度变化的选择方法相似，但在偏向批次校正方面显示出一些偏见，而对保留生物变异的影响较小。

Fig. 4: Results of the benchmark of feature selection methods.

- 图片说明

◉ 方法性能按指标类型总结。点显示单个数据集的分数，菱形显示平均值（扩展数据图5a）。方法按平均总体得分排序，基准方法用灰色阴影表示。阴影区域显示分数低于（红色）或高于（蓝色）基准范围（0-1）的得分。每种指标类型的平均排名显示在右侧，颜色表示平均排名，大小表示标准差（越小表示越不稳定）（扩展数据图5b）。◉ 不同方法选择特征的重叠情况。热图显示了不同方法选择的特征集之间的平均Jaccard指数（JI）（排除随机基因集）（扩展数据图6）。方块的大小表示标准差（越小表示越不稳定）。平均JI值大于0.5的用白色边框突出显示。◉ 每个数据集中至少由n种方法选择的特征数量（n=25、20、15、10和5）。颜色表示方法的数量。◉ 不同方法选择的特征数量。点的颜色按数据集区分，蓝色条表示每种方法的平均值。只显示那些自动确定特征数量的方法。大多数其他方法被设置为选择2,000个特征，如红线所示，而scPNMF使用200个特征。◉ 具有批次感知变体的scanpy方法相对性能的热图。颜色表示每个数据集上每种指标类型的分数差异，负值（紫色）表示批次感知变体的表现不如标准方法，正值（绿色）表示表现更好。

Para_03

排名较低的方法在各个类别的得分上表现出更多的差异（扩展数据图5）。
特别是，基线随机方法和scSEGIndex方法在整合（批次）和映射类别上的得分非常高，但在衡量生物学信息的类别上得分很低。
这种效果表明，通过选择只包含噪声的特征来获得批次之间良好的混合是很容易的，并且包括测量生物变异保守性的指标的重要性。
使用预定义的转录因子列表也会导致对批次校正的偏差，这表明特征不仅必须具有生物学重要性，还必须与特定的数据集相关。
转录因子通常表达量较低，因此噪声较大。
尽管效果不那么明显，但一些方法，如OSCA35和singleCellHaystack36，在整合（生物）类别上的排名较高，但在批次校正上却不如此。
singleCellHaystack还在未见群体检测上获得了与顶级方法相似的评分。
singleCellHaystack方法使用Seurat-VST作为预处理步骤来创建一个主成分分析（PCA）空间，在该空间中最终特征被选择。
但是这些附加步骤并没有比单独使用Seurat-VST带来更好的性能。

Para_04

我们看到大多数方法中选择的特征有一些重叠，但几乎没有组合的平均杰卡德指数超过0.5（图4b和扩展数据图6）。
一对突出的是Seurat-VST和scanpy-SeuratV3，它们产生相同的集合。考虑到它们是同一方法的不同实现，这种重叠并不令人惊讶，但看到使用不同编程语言的软件包之间的一致性是令人放心的。
由于选择的特征相同，我们在这些方法之间看到的性能差异是由集成或指标中的随机性引起的。
scanpy-Seurat和Seurat-MVP方法也实现了相同的方法，但scanpy实现允许指定特征数量，而Seurat实现则根据阈值动态选择特征数量。
此外，预处理步骤也有一些差异，导致了它们缺乏一致性。

Para_05

尽管所选特征集之间的重叠度不高，但我们仍然看到大多数方法选择了一组核心特征（图4c）。对于大多数数据集，至少有20种方法选择了500到1000个特征。
这种一致性表明，某些特征子集显然包含有关数据集的信息，并且对于有效的整合和查询映射至关重要。
剩余被选中的特征不太可能在性能相似的方法之间共享，这可能是由于基因表达的冗余性导致的，其中几个基因携带关于相同生物过程的信息。

Para_06

动态方法选择的特征数量（图4d）也可以与性能相关联。
Anticor方法在每个数据集中选择了大多数特征，因此其表现类似于使用所有特征。
DUBStepR使用的程序比这里比较的方法复杂得多，导致选择的特征非常少且整体性能较低。
然而，DUBStepR在生物学指标上的得分相对较高，表明它选择的特征是有信息量的，但不足以纠正批次效应。
表现良好的动态方法（Wilcoxon、triku和Seurat-MVP）选择的特征数量接近于我们为大多数方法选择的2,000个特征。
Seurat-MVP对所有数据集选择的特征少于2,000个，与设置为2,000个特征的scanpy-Seurat相比，尽管使用了相同的算法，Seurat-MVP具有更高的集成（批次）评分，但在集成（生物）性能上相似。
虽然较少的特征足以整合参考数据，但scanpy-Seurat包含的额外特征改善了查询分类和未见群体的检测。

Para_07

特征选择也可以通过为各个批次选择特征并组合结果来以批次感知的方式进行，通常通过选择为最多批次选择的特征来实现。
这种方法背后的直觉是它可以避免选择在批次之间变化但在批次内的生物学状态之间不变化的特征。
为了评估这种方法的有效性，我们包括了scanpy方法的批次感知变体。
图4e显示了与标准选择相比，每个数据集和指标类型在性能上的差异。
我们看到某些场景下的汇总分数有显著差异，但这种效果在数据集或指标类型上并不一致，而且总体分数的差异相对较小。
例如，批次感知选择提高了HLCA（免疫）数据集的未见群体分数，但对于HLCA（上皮）、人类内胚层和scIB胰腺数据集则明显更差。
OSCA方法也以批次感知的方式选择特征，但并未跻身于表现最佳的方法之列。
虽然我们不排除批次感知特征选择作为一种有用的方法，但我们无法确定一种情况，在这种情况下它始终比跨批次选择特征更有效。

Lineage-specific feature selection and integration

谱系特异性特征选择和整合

Para_01

大规模整合项目中的一个开放问题是是否应该整合所有细胞状态的多样性，或者通过限制特定谱系或条件来降低复杂性。
虽然我们不能在这里完全解决这个问题，但我们可以通过考虑HLCA数据集的三个版本来研究一些方面。

Para_02

图5a显示了所有方法在每个HLCA子集中的排名，包括总体排名和每种度量类型的排名。
总的来说，这些排名遵循我们在考虑所有数据集时观察到的趋势，我们没有看到任何方法在谱系子集中的排名始终高于整个数据集。
为了查看跨子集的相似排名是否源于选择了相似的特征集，我们计算了所选特征之间的Jaccard指数（图5b）。
虽然特征集之间存在一些相似性，但重叠程度并不比我们在所有数据集之间看到的更高。
对于排名较高的方法，Jaccard指数往往较低，这表明这些方法能够成功适应每个数据集。
我们还发现，免疫和上皮子集之间所选特征的重叠程度小于整个数据集。

Fig. 5: Analysis of lineage subsets of the HLCA dataset.

- 图片说明

◉ a, 方法对完整HLCA数据集、免疫亚群和上皮亚群的排名。显示了总体排名以及每个指标类别的排名。方法根据其在所有数据集中的总体表现进行排序。◉ b, 选定特征集的重叠。显示了来自每个亚群的特征集之间的Jaccard指数值的热图。◉ c, 与标记基因的重叠。显示了每种方法在每个数据集亚群中选择的标记基因的平均比例的热图。对于完整数据集中的每个谱系（内皮、上皮、免疫和基质）计算平均值。方块的大小表示每个谱系中细胞类型之间比例的标准差（越小越具有变异性）（扩展数据图7）。未显示随机基因集的重叠。◉ d, 细胞标签Milo评分分析。热图显示了完整数据集、免疫亚群和上皮亚群中每个未见细胞类型的Milo评分。右侧显示了每个谱系亚群与完整数据集相比的评分差异。

Para_03

一个动机是谱系特异性特征选择可以为该子集中细胞类型选择更具体的特征。
为了验证这一点，我们考虑了已发表的HLCA标记基因集，并计算了每种方法在每个数据子集上选择的这些标记的比例。
图5c和扩展数据图7显示了在完整的HLCA（内皮、上皮、免疫和基质）中，每个谱系在所有细胞类型中选择的标记的平均比例。
在大多数情况下，所选择的标记相对较少（标记的比例均值为0.38；中位数为0.39；第一四分位数为0.04）（扩展数据图7）。
所选标记缺乏可能是因为相关基因包含的信息冗余以及与标记检测相比优先选择的特征不同。
所选标记的选择性与性能无关，一些表现最差的方法仅对特定谱系中的细胞类型有效选择标记（扩展数据图7）。

Para_04

到目前为止，我们只考虑了方法的等级，因为各个子集之间的单个分数不可直接比较，因为它们包含不同的细胞和标签。
为了更详细地考虑一个区域，我们计算了Milo评分用于各个未见标签，这使我们能够看到一个未见的细胞类型在整个组织或谱系特异性图集中是否更容易区分（图5d）。
我们看到了在谱系子集上得分较低的趋势。
这一模式支持这样的论点：通过向整合模型提供更多样化的输入数据，它可以学习更多可能的细胞空间，因此能够更好地识别新的细胞群体。

Interaction between selected features and integration method

选定特征之间的交互与集成方法

Para_01

这项研究的重点是特征选择的影响，而不是集成方法，但我们还测量了使用变分推断（scANVI）模型37和Harmony13进行半监督单细胞注释的性能，并通过使用Symphony12进行查询映射（称为‘Symphony’），以及与scVI相比。
这种分析使我们能够评估特征选择和集成模型之间的相互作用以及生物监督的效果。图6显示了每种集成方法的平均得分和排名，以及scANVI和Symphony与scVI相比的性能差异。

Fig. 6: Comparison of feature selection method performance for different integration and query mapping methods.

- 图片说明

◉ a, 这是一个热图，展示了使用scVI、scANVI和Symphony进行整合和查询映射评估方法的每个度量类别下的平均分数（负分用灰色表示）。◉ b, 这是一个热图，展示了scANVI和Symphony与scVI相比的平均分数差异。◉ c, 这是一个热图，展示了各个方法在每个度量类别下的平均排名。◉ d, 这是一个热图，展示了与其他方法相比，scVI的平均排名差异。◉ 在所有热图中，颜色代表数值，方块的大小显示了跨数据集的标准差（越小表示越具变化性）。◉ 方法按整体排名顺序排列以适应scVI。

Para_02

总体而言，指标排名没有明显差异（图6d）。
我们观察到一个轻微的趋势，即对于scVI排名较高的方法，其排名有所下降，而对于scVI排名较低的方法，其排名有所上升（扩展数据图8）。
这种效果可能可以通过特征选择和整合方法之间的相互作用来解释，或者也可以通过scANVI和Symphony对特征选择或由于整合中的随机性导致的回归平均值敏感度较低来解释。
更仔细地观察分数的差异（图6b），我们可以看到一些突出的方法。
对于scANVI，scanpy-Seurat（批次=假）、Seurat-MVP、Brennecke38、DUBStepR以及所有特征的集成（生物）得分有显著提高。
这种性能的提升表明，在整合过程中包含生物学信息可以克服某些情况下所选特征的限制。

Para_03

事实上，与scVI相比，scANVI在大多数度量类型上导致了较小但一致的改进，除了整合（批次）。这种权衡对于许多应用是可以接受的，尤其是因为映射分数也有所增加，表明保留更多的生物信息并不会限制将查询数据集映射到参考的能力。
Symphony在度量类别上的表现相较于scVI有所下降，除了映射分数。虽然这种方法的性能下降相对一致，但在未见群体得分方面，排名最高的方法显示出最显著的下降。
这些结果表明，Symphony无法检测出新的细胞群，而这些细胞群可以通过使用相同特征的scVI和scANVI分离出来。

Discussion

Para_01

在这项全面的基准测试中，我们在十个数据集上评估了24种特征选择方法的变体，使用了1700个选定的特征集，在超过6000次的集成运行中产生了超过140000个指标分数。
我们进行了严格的指标选择过程，并确定了在数据集中表现良好的特征数量（2000个）。
我们的评估发现，高度可变的特征选择方法表现良好，基于方差稳定变换的方法（Seurat-VST/scanpy-SeuratV3）是排名最高的方法。
这一结果强化了常见的做法和先前基准测试中的建议。
带有标签引导标记基因的方法（Wilcoxon）也表现良好，但在不同数据集之间表现出更大的变化。
我们专注于无监督方法，其他监督技术可能会产生更稳定的结果；然而，监督特征选择仅在细胞标签可用时适用，这通常是在整合之前的情况。
triku方法也被高度排名，但显示出对批次校正的一些偏倚。

Para_02

我们没有发现 scanpy 中实现的方法的批处理感知变体具有一致的优势。
在某些场景下，批处理感知的选择可以提高性能，但需要更具体的评估，包括额外的方法，以确定其适用性。
对于大型数据集，批处理感知的特征选择具有计算优势，因为可以避免将整个数据集加载到内存中。
然而，我们可以使用相对适中的内存需求，在完整数据集上运行许多表现优异的方法。

Para_03

我们主要使用了 scVI 进行基准测试，但还将性能与 scANVI 进行了比较，以检查增加先验知识的效果，并将 Symphony 与其他替代集成方法进行比较。
我们发现不同的方法在不同的集成方法上表现不同，但没有发现明确的关系，这表明差异是由于集成运行和在同等表现的方法之间洗牌的随机性造成的；然而，整合方法之间存在明显的差异，对于相同的特征集，scANVI 在所有指标类别中的表现都有所提高。
相比之下，Symphony 相比于 scVI 表现较差，特别是在未见人群检测方面。

Para_04

使用 HLCA 数据集的子集，我们考虑了谱系特异性特征选择。
我们没有看到任何明确的方法和特定谱系的偏好，表现最好的方法有效地适应了不同的子集。
对于单个未见标签的 Milo 得分显示，使用更丰富的参考图谱更容易区分新的细胞群；
然而，这个比较并不是我们的主要关注点，还需要进一步的工作来确定谱系特异性特征选择和整合是否或何时可以有效。
例如，我们没有考虑谱系特异性特征是否可以改善整个数据集的整合，也没有试图解开特征选择与整合的影响。

Para_05

我们仅比较了一些常用方法中不同数量的特征，以选择最终评估的特征数量，因为对所有方法进行计算是不可行的。
对于那些我们检查了不同数量特征的方法，我们观察到数据集与不同度量类型的最佳特征数量之间存在关系；然而，有限的数据集数量不允许我们将这种关系与特定的技术特征（如批次数量或细胞标签）联系起来，而且方法在不同数量的特征下表现可能会有所不同。
我们鼓励分析人员根据他们的数据集和使用场景调整所选特征的数量，并认为这将比在顶级表现方法之间切换更能影响性能；然而，调整特征数量在计算上是密集且难以通过新数据集来评估的，因为通常没有可用于评估的标签。
开发基于数据集技术方面的自动调整所选特征数量的方法是未来研究的一个潜在方向。
我们还强调，在查询任务（特别是未见过的人群检测）上获得更好的性能需要更多的特征，这应该被考虑如果这是预期用途。

Para_06

在本研究的规划和实施过程中，发表了若干特征选择方法39,40,41,42,43,44、替代指标45,46和其他比较47,48,49。虽然我们认为其他方法不太可能显著提高性能，但要确定这一点还需要进一步的基准测试。更可能影响结果的是纳入额外的指标，例如最近提出的scGraph指标46，该指标旨在通过考虑细胞标签之间的距离来解决一些指标的局限性，并且已经显示出不同整合方法在性能上的显著差异。
这是一句不存在的句子，仅用于示例。

Para_07

我们的基准强化了被认定为高度有效的既定做法，并提供了关于可以针对个别数据集进行优化的一般有效参数的指导。

Methods

Para_01

我们的研究遵循标准的基准设计，包括测试数据集、要评估的特征选择方法和衡量性能的指标（扩展数据图1）。
完整的基准管道作为一个Nextflow50工作流实现（扩展数据图2），可以从GitHub51获取并在Zenodo52存档。
以下部分提供了特定方法、指标、数据集和处理步骤的摘要。
有关更多信息，请参阅补充方法、管道代码、原始出版物和软件包文档。

Evaluated methods

评估的方法

Para_01

我们选择了一系列特征选择方法，涵盖了标准分析工作流程中的方法以及为单细胞RNA测序数据提出的替代方法。
为了被考虑，一种方法必须在一个我们可以可靠安装和运行的公共软件包中实现。
一些方法可以自动确定要选择的特征数量，但对大多数其他方法来说，这必须被指定。
少数方法可以在选择过程中考虑批次标签，但对大多数方法而言，这需要手动将数据拆分，在每个批次上计算特征集，并组合结果。
对于大多数方法，我们使用了默认设置或任何相关文档中推荐的设置，但对于一组广泛使用的方法，我们评估了它们的变体。
在特征选择前所需的任何预处理步骤都被视为该方法的一部分。
我们采用了每种方法文档中建议的步骤，因为这些步骤是作者推荐的，并且代表了最可能的实际应用情况。

Simple control methods

简单的控制方法

Para_01

我们将所有特征和随机特征集纳入评估作为控制方法。
我们期望使用真实方法选择的特征集能提高性能，优于使用所有特征或任何随机选择的集合。
为了控制随机特征选择中的变化性，我们总是包含五个用不同种子选择的随机特征集，并对这五组的指标分数进行平均。

Excess variability methods

过度变异方法

Para_01

最常见的方法是在 RNA-seq 分析工具箱如 scanpy 和 Seurat 中选择高可变特征，那些显示出超出预期的额外变异。
这种方法假设额外的变异是由于细胞群或状态之间的基因表达差异造成的，并且选择这些特征将识别出对样本中的细胞重要的特征。

Para_02

我们评估了以下过度变异方法：方差最高的特征，Brennecke等38提出的拟合方法（在scran53 v.1.26.0中实现），Seurat11（v.4.3.0）中的变体（Seurat-分散，Seurat-MVP11和Seurat-VST25），scanpy10（v.1.9.1）中的变体（scanpy-Seurat，scanpy-SeuratV3和scanpy-Cell Ranger）以及使用batchelor54（v.1.14.0）和scran的‘通过Bioconductor协调单细胞分析’35的方法。对于scanpy方法，我们使用了标准和批次感知的变体。
For scanpy方法我们使用了标准和批次感知的变体。

Methods based on other statistical features

基于其他统计特征的方法

Para_01

其他特征统计数据也可用于特征选择，包括选择平均表达量最高的特征，Anticor27（v.0.1.8），它选择具有过多负相关的特征，NBumi选择具有过多零值的特征（M3Drop v.1.24.0）29，以及DUBStepR（提交76aa3948），它使用分箱相关矩阵的逐步回归。
这29和28是参考文献标识，在翻译结果中不应出现。

Para_02

对于Anticor，我们禁用了预定义基因通路的过滤，因为这需要基因标识符，而并非所有数据集都具备这些标识符。
对于NBumi，我们选择调整后的P值小于0.01的特征，除非这样会导致特征数量少于500个，在这种情况下，我们使用P值最低的500个特征。

Model-based methods

基于模型的方法

Para_01

基于模型的方法将一个合适的分布模型拟合到数据集上。
然后通过寻找那些与拟合模型显著不同的特征来选择特征。
这些方法包括 scTransform（v.0.3.5，通过 Seurat 访问），分析Pearson残差（在scanpy中实现）和scry（v.1.10.0）。

Embedding-based methods

基于嵌入的方法

Para_01

降维是scRNA-seq分析中常用的预处理步骤。
一些特征选择方法要么使用复杂的嵌入方法，要么寻找在整个嵌入中变化的特征。
scPNMF（提交47d5b10c）执行了一种修改后的PNMF，在其中使用了替代初始化，并选择了与信息性基相关联的特征31，而singleCellHaystack（v.0.3.4）使用Kullback-Leibler散度来找到在非随机定位细胞子集中表达的特征36。
对于singleCellHaystack，我们首先使用Seurat-VST选择特征，并执行50维PCA作为输入。

Graph-based methods

基于图的方法

Para_01

另一个常见的单细胞RNA测序分析步骤是构建细胞的最近邻图，通常使用嵌入空间中的位置。
一些方法基于这些图进行操作。
Hotspot（v.1.0.0）寻找图中具有高局部自相关性的特征。
triku（v.2.1.4）使用一个邻域图来区分在数据集中随机出现在少数细胞中的表达特征和在少数相关细胞中表达的特征。
对于这两种方法，我们使用基于所有特征主成分分析的图为输入。

Supervised methods

监督学习方法

Para_01

我们专注于评估无监督特征选择方法，因为在整合过程之前，细胞标签通常不可用；然而，在某些情况下，可能可以获得一定程度的细胞标签，特别是在那些结合先前注释的公共数据集的图谱构建项目中。
作为一个监督方法的例子，我们包括使用Wilcoxon秩和检验（如scanpy中实现的）选择的标记基因，然后进行过滤程序以去除在标签内少于10%的细胞中表达、标签外超过80%的细胞中表达或P值大于0.1的特征。
剩余的特征按估计的对数倍变化排序，并且每个标签选出前200个特征。
最终的特征集是为每个标签选择的特征的交集。

Para_02

我们还从人类转录因子网站（.php）下载了已知的转录因子，并选择了其中‘Is TF?’字段等于‘Yes’的1,639个基因。
将这个列表与每个数据集中的基因进行交集运算使用了这一方法。这种方法无法应用于splat数据集，因为它不包含真实的基因名称。

Stable expression methods

稳定的表达方法

Para_01

高度可变特征的对立面是那些稳定表达或变化小于预期的特征。
scMerge 包中的 scSEGIndex 方法（版本 1.1.4.0）为每个特征拟合了一个伽玛-高斯混合模型23。
该模型的参数和其他特征，如零计数的比例，被用来对特征进行排名并计算稳定性指数。
我们使用这些稳定的特征作为阴性对照，它们在整合过程中应该表现不佳，因为它们不应捕捉到技术噪声或生物学信号。

Evaluation metrics

评估指标

Para_01

我们实现了一系列指标，旨在评估创建和使用综合单细胞RNA测序参考的不同方面。
一些指标需要真实的细胞标签，而另一些是无监督的，衡量单一样本中的结构是否保持。
所有指标的设计方式都是，原始得分为0表示最差的表现，原始得分为1表示最佳的表现。

Integration (Batch)

集成（批量）

Para_01

集成（批量）指标衡量参考中的批次间混合情况。相同的细胞类型应该充分混合，邻居区域应该同样可能包含来自任何批次的细胞。
批次 ASW3、批次 PCR3、图连通性3 和基于图的 iLISI3,13 在 scIB3（v.1.1.4）中使用 scikit-learn60（v.1.1.2）实现。
kBET 指标17 通过 scIB 从 kBET R 包（提交 a10ffeaa）访问。
为了计算 Seurat 混合度指标14 的总体分数，我们将细胞得分除以最大邻居区域大小，然后取细胞得分的平均值，并从 1 中减去，这样更高的分数表示更好。
对于 CellMixS 包（v.1.14.0）中的 CMS 指标18，我们使用 1 减去 P 值小于 0.1 的细胞比例。

Integration (Bio)

整合（生物学）

Para_01

集成（生物）指标测量的是生物信号（主要为细胞标签）在整合后是否被保留。
与批次校正指标不同的是，在批次校正指标中，通过将所有细胞映射到一个点可以获得满分，而生物保留指标则要求细胞标签在整合后仍然保持分离。
scIB 使用 scikit-learn 实现了 ASW3、基于图的 cLISI3,13、细胞周期保留3、ARI3、NMI3、孤立标签 ASW3 和孤立标签 FI3 指标。
bARI16 和 bNMI 指标可以从 balanced_clustering（提交 a2ae3a4d）获得。
对于 Seurat 局部结构指标14，我们使用所有细胞的平均值作为最终得分；对于 ldfDiff18，我们取绝对距离，并设置上限以得到细胞得分，并用 1 减去平均细胞得分作为总体得分。
细胞周期指标3使用来自 Tirosh 等人61的研究中的基因以及通过 biomart 包63从 Biomart62获取的 ENSEMBL ID 来评分细胞11。
由于 splt 数据集不包含细胞周期效应，因此无法计算该指标。
对于需要聚类的指标（ARI、NMI、bARI 和 bNMI），我们使用 scanpy 通过 scIB 进行 Leiden 聚类，分辨率参数设置为从 0.1 到 2 之间以 0.1 为步长，并选择了最佳指标得分对应的分辨率。

Mapping quality

映射质量

Para_01

映射质量指标评估了参考如何代表查询并将查询合并到同一空间的效果。
对于完美的映射，参考和查询中存在的细胞类型应该混合在一起，查询中的批次也应该如此。
同时，查询中的生物学特性应得到保留。
细胞距离指标计算每个映射查询细胞与参考中标相应标签分布之间的马氏距离。
为了创建一个距离界限，我们对参考中标记的每个细胞计算距离，并取第90百分位数。
最终得分是1减去超出边界的映射细胞的比例。
标签距离考虑整个标签而不是单个细胞。
计算查询中标签质心与参考中匹配标签之间的马氏距离。
如果查询中的标签少于20个细胞或不在参考中，则跳过这些标签。
我们将查询细胞到其标签质心的最大距离作为边界。
然后使用该值缩放与匹配参考标签的距离，并将其设置为1如果超过最大距离。
最终得分为跨细胞类型的平均值。

Para_02

mLISI与iLISI相同，但测量的是查询和参考之间的混合（也称为ref_query LISI12），而qLISI在映射后测量查询批次之间的混合（也称为query_donors LISI12）。

Para_03

kNN相关性度量细胞邻居关系的保持程度。
对于每个查询批次，执行PCA，并计算每个细胞与其最近100个邻居之间的欧氏距离。
同时计算这些细胞在同一联合集成嵌入中的相同邻居的距离，并计算Spearman相关性。
调整相关性到0到1的范围内后，计算每个批次中细胞的平均值，最终得分为批次的平均值。
对于特别差的整合（即小的随机特征集），一个细胞可能与所有邻居等距，在这种情况下无法计算相关性，该细胞被赋予0分。

Para_04

重建度量评估生成模型通过从后验分布采样并测量平均后验表达谱与真实细胞表达谱之间的余弦距离来表示查询单元的能力64。
我们将这些距离调整到0到1的范围内，并将1减去平均距离作为最终得分。
此度量对于交响乐集成无法计算，因为它不是一种生成方法。

Classification

分类

Para_01

分类（或标签转移）指标衡量的是使用参考数据训练的分类器正确预测查询单元标签的能力。
我们使用标准的分类指标：准确率、F1 分数、Jaccard 指数、马修斯相关系数（调整到 [0, 1] 范围内）和宏平均的精确召回曲线下的面积，这些指标由 scikit-learn 实现。
对于 F1 和 Jaccard 指数，我们使用标签上的微平均、宏平均和稀有性加权平均。
注：rarity-weighted19 表示稀有性加权平均。

Unseen population prediction

未见人口预测

Para_01

未见群体指标通过测量映射如何影响查询中存在的但故意不在参考中包含的细胞标签来关注新颖的生物学。
这些应该被保持为单独的群体，但如果整合没有正确捕获变异，它们可能会与其他标签合并。
这可能导致它们与其它标签混合。

Para_02

未见不确定性指标使用标签转移分类器的输出，并通过计算查询细胞中分配类别的平均概率的均值减1来衡量未见细胞的分类效果不佳。
未见细胞距离基于细胞距离度量，但仅针对未见查询群体进行计算。
由于参考中不存在该标签，我们计算每个细胞到最近参考群体的距离，并将最终分数从1中减去，以便较高的距离（与参考的分离程度更大）给出更高的分数。
未见标签距离通过对标签距离度量应用类似的更改来计算到最近参考标签质心的距离。

Para_03

我们使用milopy65（提交be1a6cc8）实现的Milo差异丰度方法15作为指标，通过将查询或参考作为感兴趣的协变量来检测未见群体。
在集成嵌入中使用五倍于批次数量的邻居数（最多不超过200）计算邻域图。
然后将Milo应用于细胞子集（最多20,000个细胞或数据集的10%，以较高者为准）。
每个标签的得分为与查询显著相关的细胞邻域的比例（错误发现率调整P值<0.1）。
总体得分为所有未见标签的比例平均值。
在罕见的整合效果差的情况下，如果Milo无法从一个未见标签中选择细胞，则该标签被赋予得分为0。

Benchmarking datasets

基准数据集

Para_01

我们选择了代表不同场景（组织、技术和发展阶段）的数据集，在这些数据集中整合是一个关键分析步骤，包括较小规模的数据集和较大的图谱。
我们通过选择具有与剩余样本不同特征的批次来确定查询批次，例如技术、时间点或位置。
从参考中移除的未见群体是通过寻找在查询批次中富集的标签，并选择呈现不同挑战的标签，如稀有或扰动细胞来确定的。
对于每个数据集，我们使用原始作者分配的细胞标签。

scIB Pancreas

scIB Pancreas

Para_01

我们从 figshare66 下载了 scIB 胰腺数据集3。
细胞标签来自 'celltype' 细胞注释列（12个参考标签），批次信息来自 'tech' 列。
对于查询部分，我们使用了代表 CEL-seq 和 CEL-seq2 技术的批次，并将 'activated_stellate' 标签视为未见过的群体。
准备好的数据集中包含18,319个特征，12,731个参考细胞（七个批次）和3,243个查询细胞（两个批次）。

NeurIPS 2021

NeurIPS 2021

Para_01

我们从基因表达全景图（GEO）下载了NeurIPS 2021 CITE-seq数据集，并仅使用了基因表达特征。
细胞标签来自'cell_type'注释，批次标签来自'batch'注释。
我们将第4个采样点的样本视为查询样本，其中'CD8+ T naive'和'Proerythroblast'标签被视为未见查询群体。
准备完成后，数据集中包含13,953个特征，70,061个参考细胞（九个批次）和42个参考标签，以及16,715个查询细胞（三个批次）。

Fetal liver hematopoiesis

胎儿肝脏造血

Para_01

我们从CellAtlas.io下载了胎儿肝脏造血数据集，使用‘fetal.ids’注释中的批次标签和‘cell.ids’注释中的细胞标签。
来自不同发育阶段的三个样本被作为查询样本，‘库普弗细胞’、‘NK细胞’、‘ILC前体’和‘早期淋巴样T淋巴细胞’作为未见群体。
准备好的数据集包含26,686个特征，62,384个参考细胞（11个批次和23个参考标签）以及26,449个查询细胞（三个批次）。

Reed breast

文须雀

Para_01

我们从Chan Zuckerberg CELLxGENE: Discover Census下载了与预印本一起发布的Reed乳腺数据集版本32（/），使用了cellxgene-census包（v.1.0.1），并筛选出BRCA状态为野生型（'WT'或'assumed_WT'）或'BRCA1'的细胞。
供体ID被用作批次标签，细胞标签取自'level2'注释。
由于不清楚如何处理双倍体细胞，我们排除了一部分标记为双倍体的细胞。
使用野生型细胞创建了参考组，而BRCA1细胞作为查询组。
'BSL2'、'CD8T 1'、'CD8T 2'、'CD8T 3'、'FB5'、'LEC1'和'LEC2'标签被用作未见标签。
准备完成后，数据集中包含33,691个特征，337,339个参考细胞（24个批次和32个参考标签）和197,649个查询细胞（17个批次）。

Single-cell Eye in a Disk

盘中的单细胞眼

Para_01

我们从 PLatform for Analysis of scEiad 网站（/）下载了单细胞 Eye in a Disk (scEiaD) 数据集，并选择了来源于组织样本的人类细胞，其中器官被指定为‘眼睛’。
我们去除了没有细胞标签或被标记为双联体以及批次中少于 500 个细胞的细胞，因为这些导致某些指标产生不可靠的结果。
细胞标签来自‘CellType_predict’注释（分类器的协调标签）和‘batch’注释用于批次。
我们使用细胞捕获技术分割批次，以 10x v.2 作为参照，10x v.3 和 Drop-seq 批次作为查询。
‘B-Cell’、‘Blood Vessel’、‘Macrophage’、‘Pericyte’、‘Smooth Muscle Cell’ 和 ‘T/NK-Cell’ 标签是未见群体。
准备完成后，数据集中包含 19,560 个特征，360,270 个参照细胞（69 个批次和 41 个参照标签）和 48,496 个查询细胞（18 个批次）。

Human endoderm

人内胚层

Para_01

我们从 Mendeley Data75 下载了人类内胚层数据集34。
个体被当作批次处理，并从‘Cell_type’注释中获得标签。
少量标记为‘Undefined’的细胞被移除。
第12至15周的样本被选为查询对象，‘Basal like’、‘Ciliated’、‘Hepatocyte’、‘Mesenchyme subtype 4’和‘T cell/NK cell 1’标签被作为特定于查询的类别。
准备好的数据集包括27,855个特征，100,580个参考细胞（十个批次和21个参考标签）以及44,784个查询细胞（四个批次）。

Human Lung Cell Atlas

人类肺细胞图谱

Para_01

我们从Chan Zuckerberg CELLxGENE: Discover Census下载了核心人类肺细胞图谱数据集33（数据集ID 066943a2-fdac-4b29-b348-40cede398e4e，普查版本2023-07-25），并使用作者定义的'dataset'注释作为批次标签，以'ann_finest_level'注释作为标签。
来自器官捐赠者的数据集被视为参考，而来自活体捐赠者的健康和患病样本组成了查询集。
多纤毛（鼻）'、'Club（鼻）'、'Goblet（亚段）'、'SMG黏液（鼻）'、'SMG黏液（支气管）'、'SMG黏液'、'EC气道毛细血管'、'支气管周围纤维母细胞'、'平滑肌'、'平滑肌FAM83D+'、'B细胞'、'DC2'、'肺泡巨噬细胞CCL3+'和'肥大细胞'标签代表未见过的群体。
准备完成后，数据集包括27,987个特征，314,573个参考细胞（九个批次和47个参考标签）以及251,400个查询细胞（五个批次）。

HLCA (immune)

HLCA（免疫）

Para_01

HLCA（免疫）数据集采用完整的HLCA数据集，并使用最粗略级别的注释来选择免疫部分的细胞。
批次和标签与完整的HLCA数据集相同，但在子集处理后，只有'B细胞'、'DC2'、'阿尔韦洛细胞巨噬细胞CCL3+'和'肥大细胞'作为未见标签保留下来。
我们还移除了某些细胞数量不足的批次。
准备好的数据集包含26,618个特征、155,385个参考细胞（七个批次和16个参考标签）以及52,795个查询细胞（两个批次）。

HLCA (epithelial)

HLCA（上皮）

Para_01

HLCA（上皮）数据集是HLCA数据集的一个子集，专注于上皮区室。这个子集包含27,673个特征，118,374个参考细胞（八个批次和17个参考标签）以及162,875个查询细胞（五个批次），‘多纤毛（鼻部）’，‘杯状（鼻部）’，‘杯状（亚段）’，‘SMG 浆液（鼻部）’，‘SMG 浆液（支气管）’和‘SMG 黏液’仍然是未见过的标签。

splat

溅射

Para_01

模拟数据通过提供明确的地面实况来解决真实数据的一些局限性。我们使用Splatter包26中的splat模拟的一个修改版本生成了一个数据集，旨在代表一种情况，即使用三种不同的技术（每种技术两个批次）在两种条件下测量组织。
这些‘技术’测量了中等数量的细胞和中等深度的细胞（批次1和批次2），低数量的细胞和高深度的细胞（批次3和批次4），以及高数量的细胞和低深度的细胞（批次5和批次6），其中低深度样本被用作查询。
该模拟包含十个细胞标签，包括一个沿着两条轨迹分化（一条轨迹中仅存在于查询中的‘中间’细胞类型）的祖细胞，以及六个在细胞数量、差异表达基因数量和检测到的特征数量上有所不同的离散细胞类型。
这些离散组包括一个‘稀有’群体和一个‘扰动’状态，它们仅存在于查询中。为了增加模拟中的变异性，我们在模型中添加了额外的标签特定噪声因子，这些噪声因子在生成计数前应用。
splat数据集包含9,984个特征，30,041个参考细胞（四个批次和七个参考标签）和69,936个查询细胞（两个批次）。

Benchmarking pipeline

基准测试管道

Para_01

为了提高可重复性，确保代码更新时结果也是最新的，并且能够轻松利用计算资源，我们使用Nextflow50构建了一个工作流程（扩展数据图2）。
该工作流程接受一个数据集，应用标准预处理步骤，并将其分割为参考样本和查询样本。
特征选择方法应用于参考样本，所选特征用于整合。
整合后，查询样本被映射到参考样本上，并训练细胞标签分类器。
将参考样本、查询样本、真实细胞标签和转移标签提供给度量标准。
然后对度量分数进行缩放、聚合和排序。
工作流程阶段同时使用Python (v.3.9.13) 和R76 (v.4.2.2)，包括来自Bioconductor77的包。
Python的anndata包78 (v.0.8.0) 用于存储数据并在工作流程阶段之间保存为H5AD文件。
zellkonverter包 (v.1.8.0) 通过reticulate (v.1.26) 接口加载数据到R中，在那里它被存储为SingleCellExperiment35 (v.1.20.0) 或SeuratObject (v.4.1.3) 对象。

Dataset preprocessing

数据集预处理

Para_01

预处理步骤包括使用 scanpy 对细胞进行基本的质量控制过滤，并将信息（如批次和标签）存储在标准位置。
我们去除了总计数少于 100 或表达少于 100 个特征的细胞。
数据集根据批次标签被拆分为参考集和查询集。
少于 20 个细胞的标签从参考集和查询集中移除，因为一些指标在小数量细胞的情况下可能表现不稳定。
被定义为未见群体的标签也被从参考集中移除。
最后的预处理步骤是去除参考集中未表达的所有特征。

Integration and query mapping

集成和查询映射

Para_01

我们用于集成的基础模型是scVI24，可在scvi-tools79（v.0.17.1）中获得。该模型使用条件变分自动编码器，并允许通过架构手术映射查询样本。
我们还训练了一个scANVI模型37，它是scVI的半监督扩展，其中细胞标签被用来微调网络。
这些模型将原始计数数据作为输入，因此我们没有考虑特征选择和标准化方法之间的相互作用。

Para_02

作为一种基于校正PCA空间的替代方法，我们包含了使用Harmony13的整合，随后使用Symphony12进行查询映射。
我们向Harmony提供了归一化的表达值而不是原始计数，正如文档建议的那样。
计数首先被归一化到每10,000计数，然后进行对数转换。
数据集被筛选到选定的特征，并且每个特征的最大值为10，提供给Harmony的主成分数量为30。
对于Symphony，提供的是对数转换后的归一化查询数据（缩放是在映射过程中完成的）。
数据预处理步骤使用scanpy中的函数执行，整合和查询映射使用harmonypy81（版本0.0.9）和symphonypy82（版本0.2.1）执行。

Label transfer

标签转移

Para_01

我们在集成参考上使用scikit-learn训练了一个多项逻辑回归分类器，输入是每个细胞在集成嵌入空间中的位置，输出是真实的细胞标签。
通过提供映射的嵌入坐标给已训练的分类器，将标签传递给查询，预测每个参考标签的概率，并记录概率最高的标签。

Metric selection

指标选择

Para_01

我们使用了不同数量的随机选择特征来评估度量标准的选择，在所有测试数据集上都是如此。
我们还包括了来自scanpy-Seurat方法的不同大小的特征集，以评估与特征数量的关系，因为随机基因集没有固有的排序（首先选择的特征并不比最后选择的特征更有信息量）。
我们评估了各个度量分数的行为以及它们之间的关系。
如果度量标准无法区分特征集（动态范围不足），或者与特征数量过于相关（皮尔逊相关），或者与技术数据集特征相关，或显示出不希望的相关性模式，则将其移除。

Selecting a number of features

选择多个特征

Para_01

我们评估了 Seurat 和 scanpy 方法以及高方差或高平均表达量的不同特征数量。
我们在方法和数据集之间计算了 z 分数，以观察性能如何随特征数量的变化而变化。
为了降低计算成本，我们将这一部分分析限制在方法上而不是数据集上，这使我们能够看到特征数量对不同数据集的影响。
基准测试中使用的特征数量（2,000）是通过考虑方法、数据集和度量类型的趋势来选择的。

Analysis of results

结果分析

Para_01

相对性能而非绝对性能更有信息量，跨指标的聚合也是如此。
所有指标产生的分数范围在0到1之间（分数越高越好），但它们具有不同的实际动态范围。
为了对每个数据集中的每个指标进行缩放，我们使用了一组参考方法来确定每个指标的有效范围。
这些都是特征，随机选择的特征，来自scSEGIndex的稳定表达特征以及作为当前标准实践示例的来自scanpy-Cell Ranger的批次感知特征。
根据指标的不同，使用所有特征的表现要么很好，要么很差，而随机和稳定表达的特征会导致较高的批次校正得分，但生物保护效果较差。
基线方法用于为每个指标（针对一个数据集）建立一个范围，然后所有分数都相对于该范围进行缩放。
使用基线方法进行缩放提供了更具可解释性的范围，并且不会受到增加或删除方法的影响。

Para_02

量化的指标分数是通过取每个类别的平均值得到的。
这种程度的汇总给出了每种方法在每个任务上的总体表现。
使用任务得分的加权平均得到每个数据集的总体分数。

Para_03

方法在度量类别、数据集和整个基准层面上进行了排名。
这些排名使我们能够评估哪些方法在不同的任务或场景中表现更好。
我们还检查了整合方法和特征选择方法变体之间的一致性。

Para_04

进一步分析通过考虑使用杰卡德指数计算的选定集合之间的重叠，检查了方法之间的相似性。
我们还比较了完整的HLCA数据集与代表免疫和上皮区室的子集。

Para_05

最终图表使用ggplot2包（v.3.5.0）制作，并使用patchwork（v.1.2.0）进行组装。
数据处理使用了tidyverse包（v.2.0.0）。
参考文献标识已移除。

Reporting summary

报告摘要

Data availability

Para_01

所有真实的单细胞RNA测序数据集均从原始作者提供的公共存储库下载，如方法部分所述（scIB胰腺，figshare66；NeurIPS，GEO（GSE194122）；胎儿肝脏，CellAtlas.io71；Reed乳腺，Chan Zuckerberg CELLxGENE: Discover Census（数据集ID 0ba636a1-4754-4786-a8be-7ab3cf760fd6，普查版本2023-07-25）；scEiaD，plae: PLatform for Analysis of scEiad网站（/）；人类内胚层，Mendelay数据75；和HLCA，Chan Zuckerberg CELLxGENE: Discover Census（数据集ID 066943a2-fdac-4b29-b348-40cede398e4e，普查版本2023-07-25））。
原始和准备好的数据集文件、选定的特征集、指标得分和此基准的渲染分析报告均可从figshare85获取。

Code availability

Para_01

所有与本研究相关的代码均可在GitHub51和Zenodo52上获取，包括从原始作者提供的公共存储库下载数据集的脚本、运行方法和计算指标、Nextflow管道及相关环境和配置文件。分析基准测试结果的代码，包括最终图表的生成，也包含在这个仓库中。
注：文中提到的GitHub51和Zenodo52在翻译结果中已去除。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。原始发表：2025-04-17，如有侵权请联系 cloudcommunity@tencent 删除排序数据性能测试模型

单细胞不同基因集选择方法会怎样影响下游结果？

Basic Information

英文标题：Feature selection methods affect the performance of scRNA-seq data integration and querying
中文标题：特征选择方法影响scRNA-seq数据整合和查询的性能
发表日期：13 March 2025
文章类型：Registered Report
所属期刊：Nature Methods
文章作者：Luke Zappia | Fabian J. Theis
文章链接：

Abstract

Para_01

单细胞转录组学的可用性已经允许构建参考细胞图谱，但它们的有用性取决于数据集整合的质量以及将新样本映射的能力。
先前的基准测试比较了整合方法，并表明特征选择可以提高性能，但没有探索如何最好地选择特征。
在这里，我们使用超出批次校正和保留生物学变异的指标来评估查询映射、标签转移和检测未见群体的方法，对用于单细胞RNA测序整合的特征选择方法进行基准测试。
我们通过显示高可变特征选择对于产生高质量整合是有效的，从而强化了常见做法，并提供了有关所选特征数量、具有批次意识的特征选择、谱系特异性特征选择以及特征选择与整合模型之间相互作用效果的进一步指导。
这些结果对于从事大规模组织图谱分析的研究人员来说是有用的，他们使用图谱或整合自己的数据来解决特定的生物学问题。

Main

Para_01

单细胞转录组学技术现在对许多生物研究人员来说已经触手可及。
随着单细胞RNA测序（scRNA-seq）数据集的数量增加和分析方法的改进，我们看到从探索性实验转向多样本数据集的趋势。
这一趋势包括更多针对特定现象进行设计的实验或测试不同条件之间的差异，以及更大的努力来编目组织内的细胞异质性。
更多的样本允许对生物学进行更深入的研究，但也带来了额外的挑战，包括成功整合样本以去除技术差异同时保留有趣的生物学变异。
对于大规模的人体图谱构建项目而言，良好的质量整合尤为重要，因为全面捕捉组织异质性需要来自不同个体、不同地点、以不同方式收集的不同器官区域，并使用一系列协议或技术进行分析。

Para_02

许多计算科学家已经解决了整合问题，目前已有至少250种工具可用于单细胞整合。
研究已经评估了一些方法的性能，从而形成了一套用于评估整合性能的标准指标。
尽管已经对这些方法进行了比较，但可能影响整合的预处理步骤大多被忽视了。
一个受到一定关注的步骤是特征选择，基准测试表明使用高变异性基因通常会导致更好的整合；然而，这项研究只考虑了一种常用的特征选择方法。
与其他分析步骤（如聚类）不同，尚未评估整合的最佳特征选择方法。
当考虑到如何将整合空间作为参考来进一步分析查询样本时，还会产生一些其他问题。
有可能选择特征可以更好地整合参考样本，但同时可能导致一个对理解其他样本相关的生物变异来源视而不见的整合模型。

Para_03

这项研究评估了特征选择对整合单细胞RNA测序样本的影响，并使用整合后的参考来分析查询样本。
我们使用分为五个类别的多种指标评估了超过20种特征选择方法的变体的表现：批次效应消除、生物变异的保留、查询到参考映射的质量、标签传递质量以及检测未见群体的能力（扩展数据图1）。
我们稳健基准管道的结果（扩展数据图2）对于研究人员整合他们自己的数据集或创建参考图谱很有信息价值，从而产生更好的社区资源和进一步的生物学见解。

Para_04

该研究遵循在.6084/m9.figshare.24995690.v1注册并经过同行评审的协议（参考文献9）。除预先注册和批准的试点数据外，论文中报告的所有分析结果均在注册协议发布日期之后收集。
除预先注册和批准的试点数据外，论文中报告的所有分析结果均在注册协议发布日期之后收集。

Results

Metric selection is critical for reliable benchmarking

度量选择对于可靠的基准测试至关重要

Para_01

为了这项研究，我们收集了涵盖不同方面整合和查询映射的各种指标。
虽然测量广泛的因素很重要，但许多这些指标的行为尚未得到充分表征。
这种表征在这个背景下尤为重要，因为我们使用开发来比较不同整合方法的指标来评估特征选择方法的影响。
出于这个原因，我们包括了一个指标选择步骤来分析指标，并决定哪些用于基准测试。
这一步旨在选择能够有效衡量性能、不过度关联技术因素且不冗余的指标。

Para_02

我们使用随机和高度可变（scanpy10实现的Seurat算法11）特征集对每个数据集的不同大小进行度量选择，执行整合和映射，计算度量分数并比较结果（图1a）。
使用每个数据集-整合组合的随机基因集计算得分范围。
我们还使用随机集来计算度量与数据集的技术方面（特征数量、参考细胞数量、参考标签和批次数量、查询细胞数量和查询批次及未见标签数量）之间的相关性。
我们使用高度可变的特征集计算度量分数与所选特征数量之间的相关性，因为随机特征集没有内在排序（前100个特征并不比接下来的100个特征更具信息量）。
理想的度量标准应能准确测量其设计的目标，在整个输出范围内返回的数据技术特性独立的分数，并且与其他研究中的度量标准正交。
图1b显示了度量评估的总结。

Fig. 1: Overview and results of the metric selection step.

- 图片说明

Para_03

使用这些结果，我们选择了评估特征选择方法的指标。
我们发现一些指标，例如批次平均轮廓宽度（Batch ASW）和k近邻（kNN）相关性，即使在广泛选择的特征集范围内也显示出很少的变化；然而，这并不总是容易解释。
例如，细胞类型局部逆辛普森指数（cLISI）指标的自然范围是从零到数据集中标签的数量，这些被重新调整为在零和一之间，压缩了观察范围，使得即使是小的差异也可以是有信息量的。
在考虑指标与所选特征数量之间的相关性时，我们发现大多数指标与所选特征数量呈正相关，平均相关性约为0.5。
少数指标（局部结构和kNN相关性）与特征数量显示出更强且更一致的关联。
相反，映射指标通常与特征数量呈负相关。
这种关系可能是因为较小的特征集产生更嘈杂的集成，在这里细胞群体是混合的。
在这种情况下，需要较少精确的查询映射，只需在混合群体内某处进行映射就足以获得较高的映射分数。

Para_04

技术因素对数据集指标分数的影响更难以解释，因为我们考虑的数据集相对较少，并且这些因素在数据集中是相互关联的（通常包含更多细胞的数据集会有更多的批次和标签）。
我们发现，更复杂的数据集通常会导致所有指标的分数降低（扩展数据图3）。
例外情况是Milo15和不确定性指标。
对于Milo，很难说分数和技术因素之间的正相关关系是拥有更多数据的一般效应还是个别特征的效应。
就不确定性指标而言，很可能使用的分类器模型没有很好地校准，并且无论有任何特定的技术因素，对于更复杂的数据集都会显得不够确定（给出更高的分数）。
正确评估技术数据集特征的效果需要更多的数据集，在这些数据集中每个因素独立变化，可能通过模拟研究来实现。

Para_05

也许在度量选择中最重要的是考虑度量之间的相关性（图1b和扩展数据图3）。
我们希望度量能够衡量整合和查询映射的不同方面，如果选择几个高度相关的度量，则会使我们的结果偏向这一方向。
这种影响在Integration (Bio)类别中很明显，在该类别中，有几个度量（调整后的兰德指数(ARI)，批次平衡的ARI(bARI)16，归一化的互信息(NMI)，批次平衡的NMI(bNMI)16，cLISI，标签平均轮廓宽度(Label ASW)3和局部结构）彼此之间高度相关，促使我们只选择其中的一部分。
分类度量显示出更强的相关性，所有度量的得分相似。
在这里，我们也选择了代表性的度量样本，但仅使用一个或全部度量对结果影响很小。
度量相关性的另一个考虑因素是不同类型的度量之间的相关性。
为了便于解释，我们希望能够单独总结这些方面，而不同类型度量之间的相关性使这变得困难。
对于kBET度量来说，这种分类很难（图1b和扩展数据图3），它被放在Integration (Batch)类别中，但也与衡量生物变异保守性的度量相关。
虽然这对于单一度量可能是可取的，但在研究中包括kBET会使这些类别的信号混淆。
另一个突出的度量是图连通性3，原始作者认为它是批次校正度量，但它与其他类别中的度量负相关，与Integration (Bio)度量正相关。
我们在评估中保留了这个度量，但在所有进一步分析中将其包含在Integration (Bio)类别中。

Para_06

基于此分析，我们选择了三个集成（批次）指标（批次主成分回归（Batch PCR）3，细胞特异性混合评分（CMS）和集成局部逆辛普森指数（iLISI）13），六个集成（生物）指标（孤立标签ASW3，孤立标签F1（参考文献3），bNMI，cLISI，局部密度因子差异（ldfDiff）18和图连通性），四个映射指标（细胞距离12，标签距离12，映射局部逆辛普森指数（mLISI）12和查询局部逆辛普森指数（qLISI）12），三个分类指标（F1（宏），F1（微）和F1（稀有）19）以及三个未见群体指标（Milo，未见细胞距离和未见标签距离）。
扩展数据表1给出了我们排除指标的理由。

Using baselines to effectively scale and summarize metrics

使用基线有效扩展和总结指标

Para_01

个体指标具有不同的有效范围，并且与数据集的交互方式不同。为了总结和比较指标分数，需要将它们调整为每个数据集具有相同的范围。
我们使用了一种基于基线方法的缩放方法，类似于单细胞分析项目所使用的20。我们使用了四种基线方法：所有特征，使用scanpy-Cell Ranger21方法（批处理感知变体）选择的2,000个高可变特征（作为通常建议的良好实践代表3,22），500个随机选择的特征（分数在五个特征集中平均），以及使用scSEGIndex方法选择的200个稳定表达的特征（作为不应捕获信号的阴性对照）。
我们使用单细胞变异推断（scVI）24来使用选定的特征整合每个数据集。
这些方法足够多样化，可以展示每个指标的有效范围，并使我们能够为每个数据集建立基线范围（图2a）。

Fig. 2: Establishing baseline ranges and scaling and aggregating metrics.

- 图片说明

Para_02

我们使用基线范围缩放了指标分数，并如图2所示进行了汇总，以scIB胰腺数据集为例。该数据集也在注册报告的第一阶段中使用。
除了实际的基线方法外，我们还包括了理论上的‘好’和‘坏’方法，这些方法展示了在不同类型的指标中表现普遍良好或较差的方法的行为（与基线不同，基线在某些指标类型上得分高，在其他指标类型上得分低）。
原始指标分数相对于最小和最大基线分数进行缩放。
缩放后，如果一种方法的表现优于所有基线（例如‘好的’理论例子），则可能得到大于一分的分数；如果一种方法的表现比所有基线都差（例如‘坏的’理论例子），则可能得到负分。
超出参考范围的分数的可解释性是这种缩放方法的一个优势，为缩放后的值提供了额外的上下文。
我们通过取该类别的缩放值的平均值得到了每个指标类型的总结分数。
最终的整体分数是根据类别分数加权平均计算得出的（图2b）。

Para_03

我们选择了这种加权方案，以便在整合查询的参考和映射时给予相等的重要性，并且在这之中对不同的度量类型给予平等的考虑。
虽然总体分数很有用，但我们还在以下各节中提供了每种度量类型的分数。

The number of selected features affects performance

所选特征的数量影响性能

Para_01

除了用于选择特征的方法外，所选特征的数量影响整合和查询映射的成功。
对每种选择方法评估不同的特征集大小是最理想的，但在计算上是不可行的。
相反，我们测试了来自 Seurat 和 scanpy 包的常用方法以及选择表达量最高或变异最大的特征的简单方法的不同特征数量。

Para_02

图3a显示了标准化汇总分数（每个数据集和方法组合的z分数），突出了特征数量的趋势。
我们看到专注于批次校正的类别与那些测量生物学变异的类别呈现出不同的趋势。
整合（批次）得分在小特征集合时显示出最高值，并且随着特征数量的增加而减少。
映射类别显示了一个相似但不那么极端的趋势，在大约500个特征后趋于平均值。
其他类别显示了不同的模式：在特征数量增加后趋于平稳（分类和未见群体）或下降（整合（生物））。
这些模式反映了通过创建一个嘈杂的集成嵌入（单一嘈杂的细胞群）可以实现高批次校正得分。
在这种情况下，批次在参照组和查询组中将很好地混合在一起，但细胞类型之间没有分离，导致其他类别的得分较低。
由于这种影响，我们在选择特征数量时给予了整合（批次）类别较少的考虑。
总体得分趋势与生物学类别类似，在选择的特征数量在500到5,000之间时达到峰值。

Fig. 3: Effect of the number of selected features on metric performance.

- 图片说明

Para_03

虽然每个指标类别都有明显趋势，但也存在显著差异。图3中的以下面板显示了数据集和方法的平均标准化值。
我们看到，方法在数据集之间大致一致（图3c）。Seurat-VST25、scanpy-SeuratV3和scanpy-Seurat方法在特征数量上略高一些峰值，而statistic-Variance和statistic-Mean方法在集成（批次）和集成（生物）中特征数量较低的峰值，但在分类和未见群体中特征数量较高的峰值（扩展数据图4）。
这一模式表明，通过这些简单的方式选择特征可以返回在参考中捕获信息较好的集合，但与更复杂的方法相比，在查询中则不如后者好。

Para_04

我们看到，在对每个数据集的方法进行平均时，最高得分的特征数量表现出更多变化（图3b和扩展数据图4）。
具有最少细胞数的两个数据集（splat和scIB胰腺）显示出不同的模式。
对于模拟的splat数据集26，只需要很少的特征就能捕捉到存在的变异。
相比之下，对于scIB胰腺数据集，最高分数与更高数量的特征相关联。
这些差异反映了这两个数据集的特性，模拟的splat数据产生的数据比真实数据集复杂度低，而scIB胰腺数据集包含了来自多种技术的数据，给整合带来了挑战。
更大的胎儿肝脏数据集在查询类别中也需要更多的特征才能获得高分，在使用所有特征的情况下，映射和未见群体类别的最高平均值。
这一趋势表明，从参考集中选择的特征集未能捕捉到该数据集查询中的信息。
虽然不那么明显，但这种趋势在所有数据集中都存在，分类和未见群体类别相比整合（生物）类别需要更多的特征才能获得高分；
然而，选择所有特征的表现显示了获取额外信号的限制。
特征数量在何时达到饱和点尚不清楚，这可能因每个数据集的生物学和技术多样性不同而异。

Para_05

基于这一分析，在以下评估中我们对大多数方法使用了2000个特征，因为这个数量在数据集、方法和度量类别上始终产生了高分。
对此的例外是那些动态选择特征数量的方法（Anticor27、DUBStepR28、NBumi29、Seurat-MVP11和triku30）以及单细胞投影非负矩阵分解（scPNMF）31，对于这些方法文档建议使用的特征少于我们使用的其他方法，我们使用了200个特征。

Highly variable features and supervised methods perform well

高度可变的特征和监督方法表现良好

Para_01

在确定了要使用的特征数量后，我们比较了特征选择方法。
我们成功地在所有数据集上运行了大多数方法；然而，NBumi 在 24 小时内未能完成对 Reed 乳腺数据集的处理。
scPNMF 超过了 400 GB 内存限制或在 24 小时内未能完成对人类肺细胞图谱（HLCA）数据集、HLCA 免疫数据集、HLCA 上皮数据集、人类内胚层数据集和 Reed 乳腺数据集的处理。
Anticor 对人类内胚层数据集产生了意外错误。

Para_02

图4a展示了每个度量类别下的整体结果，按scVI整合的各数据集平均总体得分排序（扩展数据图5a）。
几种方法获得了相似的平均总体得分。
Wilcoxon方法是唯一使用细胞标签选择特征的方法，具有最高的平均总体得分，但在不同数据集中的变化性大于其他表现优异的方法。
这种更高的变化性表明，即使使用相同的标签进行评估，监督特征选择可能并不适用于所有数据集，并且可能需要调整通过这种方法选择的特征数量。
Seurat-VST方法获得了最高的总体排名，其他几个高度变化的特征选择方法也表现良好，平均得分相似，性能更为一致。
另一种表现优异的替代方法是triku，其总体得分与高度变化的选择方法相似，但在偏向批次校正方面显示出一些偏见，而对保留生物变异的影响较小。

Fig. 4: Results of the benchmark of feature selection methods.

- 图片说明

Para_03

排名较低的方法在各个类别的得分上表现出更多的差异（扩展数据图5）。
特别是，基线随机方法和scSEGIndex方法在整合（批次）和映射类别上的得分非常高，但在衡量生物学信息的类别上得分很低。
这种效果表明，通过选择只包含噪声的特征来获得批次之间良好的混合是很容易的，并且包括测量生物变异保守性的指标的重要性。
使用预定义的转录因子列表也会导致对批次校正的偏差，这表明特征不仅必须具有生物学重要性，还必须与特定的数据集相关。
转录因子通常表达量较低，因此噪声较大。
尽管效果不那么明显，但一些方法，如OSCA35和singleCellHaystack36，在整合（生物）类别上的排名较高，但在批次校正上却不如此。
singleCellHaystack还在未见群体检测上获得了与顶级方法相似的评分。
singleCellHaystack方法使用Seurat-VST作为预处理步骤来创建一个主成分分析（PCA）空间，在该空间中最终特征被选择。
但是这些附加步骤并没有比单独使用Seurat-VST带来更好的性能。

Para_04

我们看到大多数方法中选择的特征有一些重叠，但几乎没有组合的平均杰卡德指数超过0.5（图4b和扩展数据图6）。
一对突出的是Seurat-VST和scanpy-SeuratV3，它们产生相同的集合。考虑到它们是同一方法的不同实现，这种重叠并不令人惊讶，但看到使用不同编程语言的软件包之间的一致性是令人放心的。
由于选择的特征相同，我们在这些方法之间看到的性能差异是由集成或指标中的随机性引起的。
scanpy-Seurat和Seurat-MVP方法也实现了相同的方法，但scanpy实现允许指定特征数量，而Seurat实现则根据阈值动态选择特征数量。
此外，预处理步骤也有一些差异，导致了它们缺乏一致性。

Para_05

尽管所选特征集之间的重叠度不高，但我们仍然看到大多数方法选择了一组核心特征（图4c）。对于大多数数据集，至少有20种方法选择了500到1000个特征。
这种一致性表明，某些特征子集显然包含有关数据集的信息，并且对于有效的整合和查询映射至关重要。
剩余被选中的特征不太可能在性能相似的方法之间共享，这可能是由于基因表达的冗余性导致的，其中几个基因携带关于相同生物过程的信息。

Para_06

动态方法选择的特征数量（图4d）也可以与性能相关联。
Anticor方法在每个数据集中选择了大多数特征，因此其表现类似于使用所有特征。
DUBStepR使用的程序比这里比较的方法复杂得多，导致选择的特征非常少且整体性能较低。
然而，DUBStepR在生物学指标上的得分相对较高，表明它选择的特征是有信息量的，但不足以纠正批次效应。
表现良好的动态方法（Wilcoxon、triku和Seurat-MVP）选择的特征数量接近于我们为大多数方法选择的2,000个特征。
Seurat-MVP对所有数据集选择的特征少于2,000个，与设置为2,000个特征的scanpy-Seurat相比，尽管使用了相同的算法，Seurat-MVP具有更高的集成（批次）评分，但在集成（生物）性能上相似。
虽然较少的特征足以整合参考数据，但scanpy-Seurat包含的额外特征改善了查询分类和未见群体的检测。

Para_07

特征选择也可以通过为各个批次选择特征并组合结果来以批次感知的方式进行，通常通过选择为最多批次选择的特征来实现。
这种方法背后的直觉是它可以避免选择在批次之间变化但在批次内的生物学状态之间不变化的特征。
为了评估这种方法的有效性，我们包括了scanpy方法的批次感知变体。
图4e显示了与标准选择相比，每个数据集和指标类型在性能上的差异。
我们看到某些场景下的汇总分数有显著差异，但这种效果在数据集或指标类型上并不一致，而且总体分数的差异相对较小。
例如，批次感知选择提高了HLCA（免疫）数据集的未见群体分数，但对于HLCA（上皮）、人类内胚层和scIB胰腺数据集则明显更差。
OSCA方法也以批次感知的方式选择特征，但并未跻身于表现最佳的方法之列。
虽然我们不排除批次感知特征选择作为一种有用的方法，但我们无法确定一种情况，在这种情况下它始终比跨批次选择特征更有效。

Lineage-specific feature selection and integration

谱系特异性特征选择和整合

Para_01

大规模整合项目中的一个开放问题是是否应该整合所有细胞状态的多样性，或者通过限制特定谱系或条件来降低复杂性。
虽然我们不能在这里完全解决这个问题，但我们可以通过考虑HLCA数据集的三个版本来研究一些方面。

Para_02

图5a显示了所有方法在每个HLCA子集中的排名，包括总体排名和每种度量类型的排名。
总的来说，这些排名遵循我们在考虑所有数据集时观察到的趋势，我们没有看到任何方法在谱系子集中的排名始终高于整个数据集。
为了查看跨子集的相似排名是否源于选择了相似的特征集，我们计算了所选特征之间的Jaccard指数（图5b）。
虽然特征集之间存在一些相似性，但重叠程度并不比我们在所有数据集之间看到的更高。
对于排名较高的方法，Jaccard指数往往较低，这表明这些方法能够成功适应每个数据集。
我们还发现，免疫和上皮子集之间所选特征的重叠程度小于整个数据集。

Fig. 5: Analysis of lineage subsets of the HLCA dataset.

- 图片说明

Para_03

一个动机是谱系特异性特征选择可以为该子集中细胞类型选择更具体的特征。
为了验证这一点，我们考虑了已发表的HLCA标记基因集，并计算了每种方法在每个数据子集上选择的这些标记的比例。
图5c和扩展数据图7显示了在完整的HLCA（内皮、上皮、免疫和基质）中，每个谱系在所有细胞类型中选择的标记的平均比例。
在大多数情况下，所选择的标记相对较少（标记的比例均值为0.38；中位数为0.39；第一四分位数为0.04）（扩展数据图7）。
所选标记缺乏可能是因为相关基因包含的信息冗余以及与标记检测相比优先选择的特征不同。
所选标记的选择性与性能无关，一些表现最差的方法仅对特定谱系中的细胞类型有效选择标记（扩展数据图7）。

Para_04

到目前为止，我们只考虑了方法的等级，因为各个子集之间的单个分数不可直接比较，因为它们包含不同的细胞和标签。
为了更详细地考虑一个区域，我们计算了Milo评分用于各个未见标签，这使我们能够看到一个未见的细胞类型在整个组织或谱系特异性图集中是否更容易区分（图5d）。
我们看到了在谱系子集上得分较低的趋势。
这一模式支持这样的论点：通过向整合模型提供更多样化的输入数据，它可以学习更多可能的细胞空间，因此能够更好地识别新的细胞群体。

Interaction between selected features and integration method

选定特征之间的交互与集成方法

Para_01

这项研究的重点是特征选择的影响，而不是集成方法，但我们还测量了使用变分推断（scANVI）模型37和Harmony13进行半监督单细胞注释的性能，并通过使用Symphony12进行查询映射（称为‘Symphony’），以及与scVI相比。
这种分析使我们能够评估特征选择和集成模型之间的相互作用以及生物监督的效果。图6显示了每种集成方法的平均得分和排名，以及scANVI和Symphony与scVI相比的性能差异。

Fig. 6: Comparison of feature selection method performance for different integration and query mapping methods.

- 图片说明

Para_02

总体而言，指标排名没有明显差异（图6d）。
我们观察到一个轻微的趋势，即对于scVI排名较高的方法，其排名有所下降，而对于scVI排名较低的方法，其排名有所上升（扩展数据图8）。
这种效果可能可以通过特征选择和整合方法之间的相互作用来解释，或者也可以通过scANVI和Symphony对特征选择或由于整合中的随机性导致的回归平均值敏感度较低来解释。
更仔细地观察分数的差异（图6b），我们可以看到一些突出的方法。
对于scANVI，scanpy-Seurat（批次=假）、Seurat-MVP、Brennecke38、DUBStepR以及所有特征的集成（生物）得分有显著提高。
这种性能的提升表明，在整合过程中包含生物学信息可以克服某些情况下所选特征的限制。

Para_03

事实上，与scVI相比，scANVI在大多数度量类型上导致了较小但一致的改进，除了整合（批次）。这种权衡对于许多应用是可以接受的，尤其是因为映射分数也有所增加，表明保留更多的生物信息并不会限制将查询数据集映射到参考的能力。
Symphony在度量类别上的表现相较于scVI有所下降，除了映射分数。虽然这种方法的性能下降相对一致，但在未见群体得分方面，排名最高的方法显示出最显著的下降。
这些结果表明，Symphony无法检测出新的细胞群，而这些细胞群可以通过使用相同特征的scVI和scANVI分离出来。

Discussion

Para_01

在这项全面的基准测试中，我们在十个数据集上评估了24种特征选择方法的变体，使用了1700个选定的特征集，在超过6000次的集成运行中产生了超过140000个指标分数。
我们进行了严格的指标选择过程，并确定了在数据集中表现良好的特征数量（2000个）。
我们的评估发现，高度可变的特征选择方法表现良好，基于方差稳定变换的方法（Seurat-VST/scanpy-SeuratV3）是排名最高的方法。
这一结果强化了常见的做法和先前基准测试中的建议。
带有标签引导标记基因的方法（Wilcoxon）也表现良好，但在不同数据集之间表现出更大的变化。
我们专注于无监督方法，其他监督技术可能会产生更稳定的结果；然而，监督特征选择仅在细胞标签可用时适用，这通常是在整合之前的情况。
triku方法也被高度排名，但显示出对批次校正的一些偏倚。

Para_02

我们没有发现 scanpy 中实现的方法的批处理感知变体具有一致的优势。
在某些场景下，批处理感知的选择可以提高性能，但需要更具体的评估，包括额外的方法，以确定其适用性。
对于大型数据集，批处理感知的特征选择具有计算优势，因为可以避免将整个数据集加载到内存中。
然而，我们可以使用相对适中的内存需求，在完整数据集上运行许多表现优异的方法。

Para_03

我们主要使用了 scVI 进行基准测试，但还将性能与 scANVI 进行了比较，以检查增加先验知识的效果，并将 Symphony 与其他替代集成方法进行比较。
我们发现不同的方法在不同的集成方法上表现不同，但没有发现明确的关系，这表明差异是由于集成运行和在同等表现的方法之间洗牌的随机性造成的；然而，整合方法之间存在明显的差异，对于相同的特征集，scANVI 在所有指标类别中的表现都有所提高。
相比之下，Symphony 相比于 scVI 表现较差，特别是在未见人群检测方面。

Para_04

使用 HLCA 数据集的子集，我们考虑了谱系特异性特征选择。
我们没有看到任何明确的方法和特定谱系的偏好，表现最好的方法有效地适应了不同的子集。
对于单个未见标签的 Milo 得分显示，使用更丰富的参考图谱更容易区分新的细胞群；
然而，这个比较并不是我们的主要关注点，还需要进一步的工作来确定谱系特异性特征选择和整合是否或何时可以有效。
例如，我们没有考虑谱系特异性特征是否可以改善整个数据集的整合，也没有试图解开特征选择与整合的影响。

Para_05

我们仅比较了一些常用方法中不同数量的特征，以选择最终评估的特征数量，因为对所有方法进行计算是不可行的。
对于那些我们检查了不同数量特征的方法，我们观察到数据集与不同度量类型的最佳特征数量之间存在关系；然而，有限的数据集数量不允许我们将这种关系与特定的技术特征（如批次数量或细胞标签）联系起来，而且方法在不同数量的特征下表现可能会有所不同。
我们鼓励分析人员根据他们的数据集和使用场景调整所选特征的数量，并认为这将比在顶级表现方法之间切换更能影响性能；然而，调整特征数量在计算上是密集且难以通过新数据集来评估的，因为通常没有可用于评估的标签。
开发基于数据集技术方面的自动调整所选特征数量的方法是未来研究的一个潜在方向。
我们还强调，在查询任务（特别是未见过的人群检测）上获得更好的性能需要更多的特征，这应该被考虑如果这是预期用途。

Para_06

在本研究的规划和实施过程中，发表了若干特征选择方法39,40,41,42,43,44、替代指标45,46和其他比较47,48,49。虽然我们认为其他方法不太可能显著提高性能，但要确定这一点还需要进一步的基准测试。更可能影响结果的是纳入额外的指标，例如最近提出的scGraph指标46，该指标旨在通过考虑细胞标签之间的距离来解决一些指标的局限性，并且已经显示出不同整合方法在性能上的显著差异。
这是一句不存在的句子，仅用于示例。

Para_07

我们的基准强化了被认定为高度有效的既定做法，并提供了关于可以针对个别数据集进行优化的一般有效参数的指导。

Methods

Para_01

我们的研究遵循标准的基准设计，包括测试数据集、要评估的特征选择方法和衡量性能的指标（扩展数据图1）。
完整的基准管道作为一个Nextflow50工作流实现（扩展数据图2），可以从GitHub51获取并在Zenodo52存档。
以下部分提供了特定方法、指标、数据集和处理步骤的摘要。
有关更多信息，请参阅补充方法、管道代码、原始出版物和软件包文档。

Evaluated methods

评估的方法

Para_01

我们选择了一系列特征选择方法，涵盖了标准分析工作流程中的方法以及为单细胞RNA测序数据提出的替代方法。
为了被考虑，一种方法必须在一个我们可以可靠安装和运行的公共软件包中实现。
一些方法可以自动确定要选择的特征数量，但对大多数其他方法来说，这必须被指定。
少数方法可以在选择过程中考虑批次标签，但对大多数方法而言，这需要手动将数据拆分，在每个批次上计算特征集，并组合结果。
对于大多数方法，我们使用了默认设置或任何相关文档中推荐的设置，但对于一组广泛使用的方法，我们评估了它们的变体。
在特征选择前所需的任何预处理步骤都被视为该方法的一部分。
我们采用了每种方法文档中建议的步骤，因为这些步骤是作者推荐的，并且代表了最可能的实际应用情况。

Simple control methods

简单的控制方法

Para_01

我们将所有特征和随机特征集纳入评估作为控制方法。
我们期望使用真实方法选择的特征集能提高性能，优于使用所有特征或任何随机选择的集合。
为了控制随机特征选择中的变化性，我们总是包含五个用不同种子选择的随机特征集，并对这五组的指标分数进行平均。

Excess variability methods

过度变异方法

Para_01

最常见的方法是在 RNA-seq 分析工具箱如 scanpy 和 Seurat 中选择高可变特征，那些显示出超出预期的额外变异。
这种方法假设额外的变异是由于细胞群或状态之间的基因表达差异造成的，并且选择这些特征将识别出对样本中的细胞重要的特征。

Para_02

我们评估了以下过度变异方法：方差最高的特征，Brennecke等38提出的拟合方法（在scran53 v.1.26.0中实现），Seurat11（v.4.3.0）中的变体（Seurat-分散，Seurat-MVP11和Seurat-VST25），scanpy10（v.1.9.1）中的变体（scanpy-Seurat，scanpy-SeuratV3和scanpy-Cell Ranger）以及使用batchelor54（v.1.14.0）和scran的‘通过Bioconductor协调单细胞分析’35的方法。对于scanpy方法，我们使用了标准和批次感知的变体。
For scanpy方法我们使用了标准和批次感知的变体。

Methods based on other statistical features

基于其他统计特征的方法

Para_01

其他特征统计数据也可用于特征选择，包括选择平均表达量最高的特征，Anticor27（v.0.1.8），它选择具有过多负相关的特征，NBumi选择具有过多零值的特征（M3Drop v.1.24.0）29，以及DUBStepR（提交76aa3948），它使用分箱相关矩阵的逐步回归。
这29和28是参考文献标识，在翻译结果中不应出现。

Para_02

对于Anticor，我们禁用了预定义基因通路的过滤，因为这需要基因标识符，而并非所有数据集都具备这些标识符。
对于NBumi，我们选择调整后的P值小于0.01的特征，除非这样会导致特征数量少于500个，在这种情况下，我们使用P值最低的500个特征。

Model-based methods

基于模型的方法

Para_01

基于模型的方法将一个合适的分布模型拟合到数据集上。
然后通过寻找那些与拟合模型显著不同的特征来选择特征。
这些方法包括 scTransform（v.0.3.5，通过 Seurat 访问），分析Pearson残差（在scanpy中实现）和scry（v.1.10.0）。

Embedding-based methods

基于嵌入的方法

Para_01

降维是scRNA-seq分析中常用的预处理步骤。
一些特征选择方法要么使用复杂的嵌入方法，要么寻找在整个嵌入中变化的特征。
scPNMF（提交47d5b10c）执行了一种修改后的PNMF，在其中使用了替代初始化，并选择了与信息性基相关联的特征31，而singleCellHaystack（v.0.3.4）使用Kullback-Leibler散度来找到在非随机定位细胞子集中表达的特征36。
对于singleCellHaystack，我们首先使用Seurat-VST选择特征，并执行50维PCA作为输入。

Graph-based methods

基于图的方法

Para_01

另一个常见的单细胞RNA测序分析步骤是构建细胞的最近邻图，通常使用嵌入空间中的位置。
一些方法基于这些图进行操作。
Hotspot（v.1.0.0）寻找图中具有高局部自相关性的特征。
triku（v.2.1.4）使用一个邻域图来区分在数据集中随机出现在少数细胞中的表达特征和在少数相关细胞中表达的特征。
对于这两种方法，我们使用基于所有特征主成分分析的图为输入。

Supervised methods

监督学习方法

Para_01

我们专注于评估无监督特征选择方法，因为在整合过程之前，细胞标签通常不可用；然而，在某些情况下，可能可以获得一定程度的细胞标签，特别是在那些结合先前注释的公共数据集的图谱构建项目中。
作为一个监督方法的例子，我们包括使用Wilcoxon秩和检验（如scanpy中实现的）选择的标记基因，然后进行过滤程序以去除在标签内少于10%的细胞中表达、标签外超过80%的细胞中表达或P值大于0.1的特征。
剩余的特征按估计的对数倍变化排序，并且每个标签选出前200个特征。
最终的特征集是为每个标签选择的特征的交集。

Para_02

我们还从人类转录因子网站（.php）下载了已知的转录因子，并选择了其中‘Is TF?’字段等于‘Yes’的1,639个基因。
将这个列表与每个数据集中的基因进行交集运算使用了这一方法。这种方法无法应用于splat数据集，因为它不包含真实的基因名称。

Stable expression methods

稳定的表达方法

Para_01

高度可变特征的对立面是那些稳定表达或变化小于预期的特征。
scMerge 包中的 scSEGIndex 方法（版本 1.1.4.0）为每个特征拟合了一个伽玛-高斯混合模型23。
该模型的参数和其他特征，如零计数的比例，被用来对特征进行排名并计算稳定性指数。
我们使用这些稳定的特征作为阴性对照，它们在整合过程中应该表现不佳，因为它们不应捕捉到技术噪声或生物学信号。

Evaluation metrics

评估指标

Para_01

我们实现了一系列指标，旨在评估创建和使用综合单细胞RNA测序参考的不同方面。
一些指标需要真实的细胞标签，而另一些是无监督的，衡量单一样本中的结构是否保持。
所有指标的设计方式都是，原始得分为0表示最差的表现，原始得分为1表示最佳的表现。

Integration (Batch)

集成（批量）

Para_01

集成（批量）指标衡量参考中的批次间混合情况。相同的细胞类型应该充分混合，邻居区域应该同样可能包含来自任何批次的细胞。
批次 ASW3、批次 PCR3、图连通性3 和基于图的 iLISI3,13 在 scIB3（v.1.1.4）中使用 scikit-learn60（v.1.1.2）实现。
kBET 指标17 通过 scIB 从 kBET R 包（提交 a10ffeaa）访问。
为了计算 Seurat 混合度指标14 的总体分数，我们将细胞得分除以最大邻居区域大小，然后取细胞得分的平均值，并从 1 中减去，这样更高的分数表示更好。
对于 CellMixS 包（v.1.14.0）中的 CMS 指标18，我们使用 1 减去 P 值小于 0.1 的细胞比例。

Integration (Bio)

整合（生物学）

Para_01

集成（生物）指标测量的是生物信号（主要为细胞标签）在整合后是否被保留。
与批次校正指标不同的是，在批次校正指标中，通过将所有细胞映射到一个点可以获得满分，而生物保留指标则要求细胞标签在整合后仍然保持分离。
scIB 使用 scikit-learn 实现了 ASW3、基于图的 cLISI3,13、细胞周期保留3、ARI3、NMI3、孤立标签 ASW3 和孤立标签 FI3 指标。
bARI16 和 bNMI 指标可以从 balanced_clustering（提交 a2ae3a4d）获得。
对于 Seurat 局部结构指标14，我们使用所有细胞的平均值作为最终得分；对于 ldfDiff18，我们取绝对距离，并设置上限以得到细胞得分，并用 1 减去平均细胞得分作为总体得分。
细胞周期指标3使用来自 Tirosh 等人61的研究中的基因以及通过 biomart 包63从 Biomart62获取的 ENSEMBL ID 来评分细胞11。
由于 splt 数据集不包含细胞周期效应，因此无法计算该指标。
对于需要聚类的指标（ARI、NMI、bARI 和 bNMI），我们使用 scanpy 通过 scIB 进行 Leiden 聚类，分辨率参数设置为从 0.1 到 2 之间以 0.1 为步长，并选择了最佳指标得分对应的分辨率。

Mapping quality

映射质量

Para_01

映射质量指标评估了参考如何代表查询并将查询合并到同一空间的效果。
对于完美的映射，参考和查询中存在的细胞类型应该混合在一起，查询中的批次也应该如此。
同时，查询中的生物学特性应得到保留。
细胞距离指标计算每个映射查询细胞与参考中标相应标签分布之间的马氏距离。
为了创建一个距离界限，我们对参考中标记的每个细胞计算距离，并取第90百分位数。
最终得分是1减去超出边界的映射细胞的比例。
标签距离考虑整个标签而不是单个细胞。
计算查询中标签质心与参考中匹配标签之间的马氏距离。
如果查询中的标签少于20个细胞或不在参考中，则跳过这些标签。
我们将查询细胞到其标签质心的最大距离作为边界。
然后使用该值缩放与匹配参考标签的距离，并将其设置为1如果超过最大距离。
最终得分为跨细胞类型的平均值。

Para_02

mLISI与iLISI相同，但测量的是查询和参考之间的混合（也称为ref_query LISI12），而qLISI在映射后测量查询批次之间的混合（也称为query_donors LISI12）。

Para_03

kNN相关性度量细胞邻居关系的保持程度。
对于每个查询批次，执行PCA，并计算每个细胞与其最近100个邻居之间的欧氏距离。
同时计算这些细胞在同一联合集成嵌入中的相同邻居的距离，并计算Spearman相关性。
调整相关性到0到1的范围内后，计算每个批次中细胞的平均值，最终得分为批次的平均值。
对于特别差的整合（即小的随机特征集），一个细胞可能与所有邻居等距，在这种情况下无法计算相关性，该细胞被赋予0分。

Para_04

重建度量评估生成模型通过从后验分布采样并测量平均后验表达谱与真实细胞表达谱之间的余弦距离来表示查询单元的能力64。
我们将这些距离调整到0到1的范围内，并将1减去平均距离作为最终得分。
此度量对于交响乐集成无法计算，因为它不是一种生成方法。

Classification

分类

Para_01

分类（或标签转移）指标衡量的是使用参考数据训练的分类器正确预测查询单元标签的能力。
我们使用标准的分类指标：准确率、F1 分数、Jaccard 指数、马修斯相关系数（调整到 [0, 1] 范围内）和宏平均的精确召回曲线下的面积，这些指标由 scikit-learn 实现。
对于 F1 和 Jaccard 指数，我们使用标签上的微平均、宏平均和稀有性加权平均。
注：rarity-weighted19 表示稀有性加权平均。

Unseen population prediction

未见人口预测

Para_01

未见群体指标通过测量映射如何影响查询中存在的但故意不在参考中包含的细胞标签来关注新颖的生物学。
这些应该被保持为单独的群体，但如果整合没有正确捕获变异，它们可能会与其他标签合并。
这可能导致它们与其它标签混合。

Para_02

未见不确定性指标使用标签转移分类器的输出，并通过计算查询细胞中分配类别的平均概率的均值减1来衡量未见细胞的分类效果不佳。
未见细胞距离基于细胞距离度量，但仅针对未见查询群体进行计算。
由于参考中不存在该标签，我们计算每个细胞到最近参考群体的距离，并将最终分数从1中减去，以便较高的距离（与参考的分离程度更大）给出更高的分数。
未见标签距离通过对标签距离度量应用类似的更改来计算到最近参考标签质心的距离。

Para_03

我们使用milopy65（提交be1a6cc8）实现的Milo差异丰度方法15作为指标，通过将查询或参考作为感兴趣的协变量来检测未见群体。
在集成嵌入中使用五倍于批次数量的邻居数（最多不超过200）计算邻域图。
然后将Milo应用于细胞子集（最多20,000个细胞或数据集的10%，以较高者为准）。
每个标签的得分为与查询显著相关的细胞邻域的比例（错误发现率调整P值<0.1）。
总体得分为所有未见标签的比例平均值。
在罕见的整合效果差的情况下，如果Milo无法从一个未见标签中选择细胞，则该标签被赋予得分为0。

Benchmarking datasets

基准数据集

Para_01

我们选择了代表不同场景（组织、技术和发展阶段）的数据集，在这些数据集中整合是一个关键分析步骤，包括较小规模的数据集和较大的图谱。
我们通过选择具有与剩余样本不同特征的批次来确定查询批次，例如技术、时间点或位置。
从参考中移除的未见群体是通过寻找在查询批次中富集的标签，并选择呈现不同挑战的标签，如稀有或扰动细胞来确定的。
对于每个数据集，我们使用原始作者分配的细胞标签。

scIB Pancreas

scIB Pancreas

Para_01

我们从 figshare66 下载了 scIB 胰腺数据集3。
细胞标签来自 'celltype' 细胞注释列（12个参考标签），批次信息来自 'tech' 列。
对于查询部分，我们使用了代表 CEL-seq 和 CEL-seq2 技术的批次，并将 'activated_stellate' 标签视为未见过的群体。
准备好的数据集中包含18,319个特征，12,731个参考细胞（七个批次）和3,243个查询细胞（两个批次）。

NeurIPS 2021

NeurIPS 2021

Para_01

我们从基因表达全景图（GEO）下载了NeurIPS 2021 CITE-seq数据集，并仅使用了基因表达特征。
细胞标签来自'cell_type'注释，批次标签来自'batch'注释。
我们将第4个采样点的样本视为查询样本，其中'CD8+ T naive'和'Proerythroblast'标签被视为未见查询群体。
准备完成后，数据集中包含13,953个特征，70,061个参考细胞（九个批次）和42个参考标签，以及16,715个查询细胞（三个批次）。

Fetal liver hematopoiesis

胎儿肝脏造血

Para_01

我们从CellAtlas.io下载了胎儿肝脏造血数据集，使用‘fetal.ids’注释中的批次标签和‘cell.ids’注释中的细胞标签。
来自不同发育阶段的三个样本被作为查询样本，‘库普弗细胞’、‘NK细胞’、‘ILC前体’和‘早期淋巴样T淋巴细胞’作为未见群体。
准备好的数据集包含26,686个特征，62,384个参考细胞（11个批次和23个参考标签）以及26,449个查询细胞（三个批次）。

Reed breast

文须雀

Para_01

我们从Chan Zuckerberg CELLxGENE: Discover Census下载了与预印本一起发布的Reed乳腺数据集版本32（/），使用了cellxgene-census包（v.1.0.1），并筛选出BRCA状态为野生型（'WT'或'assumed_WT'）或'BRCA1'的细胞。
供体ID被用作批次标签，细胞标签取自'level2'注释。
由于不清楚如何处理双倍体细胞，我们排除了一部分标记为双倍体的细胞。
使用野生型细胞创建了参考组，而BRCA1细胞作为查询组。
'BSL2'、'CD8T 1'、'CD8T 2'、'CD8T 3'、'FB5'、'LEC1'和'LEC2'标签被用作未见标签。
准备完成后，数据集中包含33,691个特征，337,339个参考细胞（24个批次和32个参考标签）和197,649个查询细胞（17个批次）。

Single-cell Eye in a Disk

盘中的单细胞眼

Para_01

我们从 PLatform for Analysis of scEiad 网站（/）下载了单细胞 Eye in a Disk (scEiaD) 数据集，并选择了来源于组织样本的人类细胞，其中器官被指定为‘眼睛’。
我们去除了没有细胞标签或被标记为双联体以及批次中少于 500 个细胞的细胞，因为这些导致某些指标产生不可靠的结果。
细胞标签来自‘CellType_predict’注释（分类器的协调标签）和‘batch’注释用于批次。
我们使用细胞捕获技术分割批次，以 10x v.2 作为参照，10x v.3 和 Drop-seq 批次作为查询。
‘B-Cell’、‘Blood Vessel’、‘Macrophage’、‘Pericyte’、‘Smooth Muscle Cell’ 和 ‘T/NK-Cell’ 标签是未见群体。
准备完成后，数据集中包含 19,560 个特征，360,270 个参照细胞（69 个批次和 41 个参照标签）和 48,496 个查询细胞（18 个批次）。

Human endoderm

人内胚层

Para_01

我们从 Mendeley Data75 下载了人类内胚层数据集34。
个体被当作批次处理，并从‘Cell_type’注释中获得标签。
少量标记为‘Undefined’的细胞被移除。
第12至15周的样本被选为查询对象，‘Basal like’、‘Ciliated’、‘Hepatocyte’、‘Mesenchyme subtype 4’和‘T cell/NK cell 1’标签被作为特定于查询的类别。
准备好的数据集包括27,855个特征，100,580个参考细胞（十个批次和21个参考标签）以及44,784个查询细胞（四个批次）。

Human Lung Cell Atlas

人类肺细胞图谱

Para_01

我们从Chan Zuckerberg CELLxGENE: Discover Census下载了核心人类肺细胞图谱数据集33（数据集ID 066943a2-fdac-4b29-b348-40cede398e4e，普查版本2023-07-25），并使用作者定义的'dataset'注释作为批次标签，以'ann_finest_level'注释作为标签。
来自器官捐赠者的数据集被视为参考，而来自活体捐赠者的健康和患病样本组成了查询集。
多纤毛（鼻）'、'Club（鼻）'、'Goblet（亚段）'、'SMG黏液（鼻）'、'SMG黏液（支气管）'、'SMG黏液'、'EC气道毛细血管'、'支气管周围纤维母细胞'、'平滑肌'、'平滑肌FAM83D+'、'B细胞'、'DC2'、'肺泡巨噬细胞CCL3+'和'肥大细胞'标签代表未见过的群体。
准备完成后，数据集包括27,987个特征，314,573个参考细胞（九个批次和47个参考标签）以及251,400个查询细胞（五个批次）。

HLCA (immune)

HLCA（免疫）

Para_01

HLCA（免疫）数据集采用完整的HLCA数据集，并使用最粗略级别的注释来选择免疫部分的细胞。
批次和标签与完整的HLCA数据集相同，但在子集处理后，只有'B细胞'、'DC2'、'阿尔韦洛细胞巨噬细胞CCL3+'和'肥大细胞'作为未见标签保留下来。
我们还移除了某些细胞数量不足的批次。
准备好的数据集包含26,618个特征、155,385个参考细胞（七个批次和16个参考标签）以及52,795个查询细胞（两个批次）。

HLCA (epithelial)

HLCA（上皮）

Para_01

HLCA（上皮）数据集是HLCA数据集的一个子集，专注于上皮区室。这个子集包含27,673个特征，118,374个参考细胞（八个批次和17个参考标签）以及162,875个查询细胞（五个批次），‘多纤毛（鼻部）’，‘杯状（鼻部）’，‘杯状（亚段）’，‘SMG 浆液（鼻部）’，‘SMG 浆液（支气管）’和‘SMG 黏液’仍然是未见过的标签。

splat

溅射

Para_01

模拟数据通过提供明确的地面实况来解决真实数据的一些局限性。我们使用Splatter包26中的splat模拟的一个修改版本生成了一个数据集，旨在代表一种情况，即使用三种不同的技术（每种技术两个批次）在两种条件下测量组织。
这些‘技术’测量了中等数量的细胞和中等深度的细胞（批次1和批次2），低数量的细胞和高深度的细胞（批次3和批次4），以及高数量的细胞和低深度的细胞（批次5和批次6），其中低深度样本被用作查询。
该模拟包含十个细胞标签，包括一个沿着两条轨迹分化（一条轨迹中仅存在于查询中的‘中间’细胞类型）的祖细胞，以及六个在细胞数量、差异表达基因数量和检测到的特征数量上有所不同的离散细胞类型。
这些离散组包括一个‘稀有’群体和一个‘扰动’状态，它们仅存在于查询中。为了增加模拟中的变异性，我们在模型中添加了额外的标签特定噪声因子，这些噪声因子在生成计数前应用。
splat数据集包含9,984个特征，30,041个参考细胞（四个批次和七个参考标签）和69,936个查询细胞（两个批次）。

Benchmarking pipeline

基准测试管道

Para_01

为了提高可重复性，确保代码更新时结果也是最新的，并且能够轻松利用计算资源，我们使用Nextflow50构建了一个工作流程（扩展数据图2）。
该工作流程接受一个数据集，应用标准预处理步骤，并将其分割为参考样本和查询样本。
特征选择方法应用于参考样本，所选特征用于整合。
整合后，查询样本被映射到参考样本上，并训练细胞标签分类器。
将参考样本、查询样本、真实细胞标签和转移标签提供给度量标准。
然后对度量分数进行缩放、聚合和排序。
工作流程阶段同时使用Python (v.3.9.13) 和R76 (v.4.2.2)，包括来自Bioconductor77的包。
Python的anndata包78 (v.0.8.0) 用于存储数据并在工作流程阶段之间保存为H5AD文件。
zellkonverter包 (v.1.8.0) 通过reticulate (v.1.26) 接口加载数据到R中，在那里它被存储为SingleCellExperiment35 (v.1.20.0) 或SeuratObject (v.4.1.3) 对象。

Dataset preprocessing

数据集预处理

Para_01

预处理步骤包括使用 scanpy 对细胞进行基本的质量控制过滤，并将信息（如批次和标签）存储在标准位置。
我们去除了总计数少于 100 或表达少于 100 个特征的细胞。
数据集根据批次标签被拆分为参考集和查询集。
少于 20 个细胞的标签从参考集和查询集中移除，因为一些指标在小数量细胞的情况下可能表现不稳定。
被定义为未见群体的标签也被从参考集中移除。
最后的预处理步骤是去除参考集中未表达的所有特征。

Integration and query mapping

集成和查询映射

Para_01

我们用于集成的基础模型是scVI24，可在scvi-tools79（v.0.17.1）中获得。该模型使用条件变分自动编码器，并允许通过架构手术映射查询样本。
我们还训练了一个scANVI模型37，它是scVI的半监督扩展，其中细胞标签被用来微调网络。
这些模型将原始计数数据作为输入，因此我们没有考虑特征选择和标准化方法之间的相互作用。

Para_02

作为一种基于校正PCA空间的替代方法，我们包含了使用Harmony13的整合，随后使用Symphony12进行查询映射。
我们向Harmony提供了归一化的表达值而不是原始计数，正如文档建议的那样。
计数首先被归一化到每10,000计数，然后进行对数转换。
数据集被筛选到选定的特征，并且每个特征的最大值为10，提供给Harmony的主成分数量为30。
对于Symphony，提供的是对数转换后的归一化查询数据（缩放是在映射过程中完成的）。
数据预处理步骤使用scanpy中的函数执行，整合和查询映射使用harmonypy81（版本0.0.9）和symphonypy82（版本0.2.1）执行。

Label transfer

标签转移

Para_01

我们在集成参考上使用scikit-learn训练了一个多项逻辑回归分类器，输入是每个细胞在集成嵌入空间中的位置，输出是真实的细胞标签。
通过提供映射的嵌入坐标给已训练的分类器，将标签传递给查询，预测每个参考标签的概率，并记录概率最高的标签。

Metric selection

指标选择

Para_01

我们使用了不同数量的随机选择特征来评估度量标准的选择，在所有测试数据集上都是如此。
我们还包括了来自scanpy-Seurat方法的不同大小的特征集，以评估与特征数量的关系，因为随机基因集没有固有的排序（首先选择的特征并不比最后选择的特征更有信息量）。
我们评估了各个度量分数的行为以及它们之间的关系。
如果度量标准无法区分特征集（动态范围不足），或者与特征数量过于相关（皮尔逊相关），或者与技术数据集特征相关，或显示出不希望的相关性模式，则将其移除。

Selecting a number of features

选择多个特征

Para_01

我们评估了 Seurat 和 scanpy 方法以及高方差或高平均表达量的不同特征数量。
我们在方法和数据集之间计算了 z 分数，以观察性能如何随特征数量的变化而变化。
为了降低计算成本，我们将这一部分分析限制在方法上而不是数据集上，这使我们能够看到特征数量对不同数据集的影响。
基准测试中使用的特征数量（2,000）是通过考虑方法、数据集和度量类型的趋势来选择的。

Analysis of results

结果分析

Para_01

相对性能而非绝对性能更有信息量，跨指标的聚合也是如此。
所有指标产生的分数范围在0到1之间（分数越高越好），但它们具有不同的实际动态范围。
为了对每个数据集中的每个指标进行缩放，我们使用了一组参考方法来确定每个指标的有效范围。
这些都是特征，随机选择的特征，来自scSEGIndex的稳定表达特征以及作为当前标准实践示例的来自scanpy-Cell Ranger的批次感知特征。
根据指标的不同，使用所有特征的表现要么很好，要么很差，而随机和稳定表达的特征会导致较高的批次校正得分，但生物保护效果较差。
基线方法用于为每个指标（针对一个数据集）建立一个范围，然后所有分数都相对于该范围进行缩放。
使用基线方法进行缩放提供了更具可解释性的范围，并且不会受到增加或删除方法的影响。

Para_02

量化的指标分数是通过取每个类别的平均值得到的。
这种程度的汇总给出了每种方法在每个任务上的总体表现。
使用任务得分的加权平均得到每个数据集的总体分数。

Para_03

方法在度量类别、数据集和整个基准层面上进行了排名。
这些排名使我们能够评估哪些方法在不同的任务或场景中表现更好。
我们还检查了整合方法和特征选择方法变体之间的一致性。

Para_04

进一步分析通过考虑使用杰卡德指数计算的选定集合之间的重叠，检查了方法之间的相似性。
我们还比较了完整的HLCA数据集与代表免疫和上皮区室的子集。

Para_05

最终图表使用ggplot2包（v.3.5.0）制作，并使用patchwork（v.1.2.0）进行组装。
数据处理使用了tidyverse包（v.2.0.0）。
参考文献标识已移除。

Reporting summary

报告摘要

Data availability

Para_01

所有真实的单细胞RNA测序数据集均从原始作者提供的公共存储库下载，如方法部分所述（scIB胰腺，figshare66；NeurIPS，GEO（GSE194122）；胎儿肝脏，CellAtlas.io71；Reed乳腺，Chan Zuckerberg CELLxGENE: Discover Census（数据集ID 0ba636a1-4754-4786-a8be-7ab3cf760fd6，普查版本2023-07-25）；scEiaD，plae: PLatform for Analysis of scEiad网站（/）；人类内胚层，Mendelay数据75；和HLCA，Chan Zuckerberg CELLxGENE: Discover Census（数据集ID 066943a2-fdac-4b29-b348-40cede398e4e，普查版本2023-07-25））。
原始和准备好的数据集文件、选定的特征集、指标得分和此基准的渲染分析报告均可从figshare85获取。

Code availability

Para_01

所有与本研究相关的代码均可在GitHub51和Zenodo52上获取，包括从原始作者提供的公共存储库下载数据集的脚本、运行方法和计算指标、Nextflow管道及相关环境和配置文件。分析基准测试结果的代码，包括最终图表的生成，也包含在这个仓库中。
注：文中提到的GitHub51和Zenodo52在翻译结果中已去除。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。原始发表：2025-04-17，如有侵权请联系 cloudcommunity@tencent 删除排序数据性能测试模型

本文标签：单细胞不同基因集选择方法会怎样影响下游结果

版权声明：本文标题：单细胞不同基因集选择方法会怎样影响下游结果？内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：http://it.en369.cn/jiaocheng/1747633767a2196341.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。