admin管理员组文章数量:1035488
从稀疏的表观基因组数据中快速分类脑肿瘤
Basic Information
- 英文标题:Rapid brain tumor classification from sparse epigenomic data
- 中文标题:从稀疏的表观基因组数据中快速分类脑肿瘤
- 发表日期:28 February 2025
- 文章类型:Article
- 所属期刊:Nature Medicine
- 文章作者:Björn Brändl | Franz-Josef Müller
- 文章链接:
Abstract
Para_01
- 尽管对迄今为止描述的大约100种已知脑肿瘤实体进行术中分子诊断是过去十年神经病理学的目标,但在活检采集后不到1小时内实现这一目标仍然难以达成。
- 第三代测序技术的进步使这一目标更加接近,但现有的机器学习技术依赖于计算密集型方法,使其在临床应用中的实时诊断工作流程中不切实际。
- 在此,我们介绍 MethyLYZR,这是一种基于朴素贝叶斯框架的方法,能够完全可行地对癌症表观基因组进行实时分类。
- 为了评估其性能,我们使用纳米孔测序对超过200个脑肿瘤样本进行了分类,其中包括在手术室附近临床环境中测序的10个样本,在测序开始后的15分钟内取得了高度准确的结果。
- MethyLYZR 可以与正在进行的纳米孔实验并行运行,并且几乎不会增加计算开销。
- 因此,实现更快结果输出的唯一限制因素是DNA提取时间和纳米孔测序仪的最大并行处理能力。
- 尽管需要更多来自前瞻性研究的证据,我们的研究表明,MethyLYZR 不仅可以用于神经外科术中场景下通过纳米孔测序对神经系统恶性肿瘤进行实时分子分类,还适用于其他肿瘤学指征以及通过液体活检中的无细胞DNA对肿瘤进行分类。
Main
Para_01
- 肿瘤外科手术中的术中诊断程序可以追溯到19世纪末期,并且对患者的预后产生了实质性的影响。
- 它们主要服务于两个临床目的:首先,确定病理诊断;其次,评估切除边缘的肿瘤细胞。
- 最直接的术中应用案例是区分适合手术的肿瘤和更适合非手术治疗方式的肿瘤。
- 现代神经病理学对分子定义、特别是表观遗传定义的肿瘤分类的依赖性,在世界卫生组织(WHO)最新版中枢神经系统(CNS)肿瘤分类中得到了体现。
- 这一分类部分基于这样一个基本认识:在中枢神经系统中发现的恶性肿瘤可以根据全基因组甲基化谱被识别并归类为不同的肿瘤类型。
- 具体来说,由Capper等人开发的一种使用随机森林模型进行甲基化微阵列分析的方法,如今能够对多达184种中枢神经系统肿瘤类别进行分类(DKFZ脑分类器12.8),并且已被整合到临床实践中。
- 然而,目前在转化研究和临床常规中使用的所有全基因组分子方法都需要几天甚至几周的时间才能完成,这使得它们无法用于次日或术中诊断应用。
Para_02
- 纳米孔测序已成为护理点(POC)临床前研究中的变革性技术。
- 三项特定特性使这项技术成为在神经肿瘤手术时间范围内提供分子信息的理想候选者。
- 首先,核苷酸分辨率的序列数据在DNA或RNA链进入纳米孔后仅需几毫秒即可用于进一步分析和解释。
- 其次,在同一即时时间范围内可以获得这些核苷酸序列的表观遗传修饰信息。
- 第三,基于转座酶的纳米孔测序文库制备可在几分钟内完成,从而实现护理点处设备占用较小的临床测序工作流程。
Para_03
- 一些工作流程采用纳米孔测序来诊断中枢神经系统肿瘤,有时在一天内甚至在神经肿瘤手术过程中完成。
- 这些诊断是通过根据特征性的 CpG 甲基化谱对肿瘤进行分类实现的。
- 最初提出的随机森林方法已被定制用于适应性纳米孔测序,形成了一个为期四天的工作流程,并且最近已被修改以支持术中应用。
- 这种应用场景涉及针对样本的即时训练,仅覆盖每个纳米孔测序实验中的 CpG 位点,通常从样本到结果需要 1.5 小时(91 至 161 分钟)。
Para_04
- 样本到结果的时间和临床相关的诊断准确性是任何术中诊断程序的主要关注点。
- 尽管典型的中枢神经系统肿瘤切除手术需要中位时间为3小时(179分钟;范围123-250分钟),但在神经外科医生到达脑肿瘤并获取活检的任何诊断信息后,能够实际影响后续切除范围的决策时间通常限制在1小时以内(图1a)。
- 虽然基于成像的刺激拉曼组织学已显示出少于2.5分钟的样本到结果时间,但目前其底层神经网络识别的肿瘤类别数量(n=13)远少于通过综合分子方法可区分的类别数量(n=108)。
Fig. 1: MethyLYZR enables tumor class prediction on sparse data without model retraining.
- 图片说明
◉ 简化的脑部手术流程时间表示意图。阶段包括以下内容:(1)诱导,涉及麻醉、患者定位以及神经导航调整(大约45-60分钟);(2)切开并进入肿瘤(大约30分钟);(3)肿瘤切除(大约60分钟)和(4)回缩并完成缝合(大约30分钟)。值得注意的是,60分钟的肿瘤切除阶段是获取分子诊断的关键时间窗口。然而,现有的分子诊断周转时间超过了手术过程的时长。◉ 朴素贝叶斯算法训练和预测过程的图示。多个肿瘤类别(m类)通过若干样本提供CpG甲基化比率(p特征)用于算法训练。训练涉及根据提供的样本(S₁,...,Sₙₘ)生成m个中心点(μ),描述每个肿瘤类别中n个CpGs(特征)的平均甲基化概率。此外,针对每个CpG和类别计算权重(w),反映特定肿瘤类别中CpG的预测能力。在给定样本中进行肿瘤类别预测时,单个分子的稀疏二进制甲基化值——例如通过纳米孔测序获得——作为预训练伯努利朴素贝叶斯模型的输入。输出包含模型中所有肿瘤类别的后验概率排名列表。◉ MethyLYZR训练时间的基准分析,基于已发布的中枢神经系统450k甲基化阵列数据,涵盖91个肿瘤类别,总计2801个样本。训练在单核上执行,使用戴尔PowerEdge R7525服务器(3 GHz AMD 64核处理器,256 CPU,1031.3 GB DDR4内存,Linux系统)和苹果iMac Pro(3 GHz 10核Intel Xeon W,64 GB 2666 MHz DDR4内存,1 TB APFS SSD,Radeon Pro Vega 56 GPU,8 GB VRAM,macOS 13.2.1)。值得注意的是,中心点和权重训练在服务器上不到20分钟完成,在iMac Pro上不到40分钟完成。
Para_05
- 最近,将神经网络模型应用于纳米孔数据的实践中,在几秒内得出了与特设的随机森林分类器相似精度的预测结果,展示了从样本到结果大约1.25小时的实际可行周转时间。
- 然而,由于公开可用的训练数据量有限,深度学习需要模拟数千万个纳米孔数据集来训练和验证复杂的分类器,同时还需要大量的计算资源来进行超参数调整。
Para_06
- 在这里,我们提出了 MethyLYZR,这是一个概率框架,能够直接从稀疏的 DNA 甲基化谱中对恶性转化组织进行分类,而无需专门训练。
- MethyLYZR 的结果在许多情况下与竞争方法的诊断准确性相似甚至更优。
Results
Para_01
- 纳米孔测序是一种随机的‘鸟枪法’测序方法。
- 尽管它具有高通量扩展的潜力,但在神经外科肿瘤手术的关键时间内,它实际上只能捕获人类基因组的一小部分,通常远低于2%。
- 在这种情况下,与甲基化阵列或深度测序数据集不同,浅层纳米孔测序针对CpG位点的甲基化状态提供单分子的二元输出。
- 每个DNA分子上的每个CpG位点被分类为甲基化或非甲基化,这与通过甲基化阵列通常获得的连续、整体甲基化测量值(甲基化率或概率)不同。
- 另一个主要挑战是随机获取的特征集合——每次测序实验都会恢复一个不同的、随机的CpG子集。
Para_02
- 这些特定的约束条件使得伯努利朴素贝叶斯分类器成为解决在最短时间内分类癌症表观基因组的独特算法挑战的合适框架。
- 该分类器使用贝叶斯定理,根据新出现的甲基化数据,更新肿瘤样本属于某一特定癌症类别的可能性(图1b)。
Para_03
- 为了训练伯努利朴素贝叶斯分类器,我们使用来自Illumina 450k甲基化阵列的数据,计算不同癌症类别中每个CpG位点的平均甲基化率。
- 这为我们提供了每个癌症类别中每个CpG位点的甲基化概率(图1b,顶部)。
- 随后,MethyLYZR应用加权系统来提高这些概率的准确性,特别是在区分密切相关的癌症类型时。
- 该系统还考虑了不同CpG位点之间的甲基化模式通常是相关的这一事实,这有助于提高模型的可靠性(方法;补充图1;图1b顶部;以及扩展数据图1)。
Para_04
- 对于实际的癌症分类,朴素贝叶斯分类器会根据纳米孔测序提供的新甲基化数据更新其对可能肿瘤类型的预测(图1b,底部)。
- 它生成一个可能的肿瘤类别列表,并将概率最高的类别确定为最可能的结果。
Para_05
- 值得注意的是,朴素贝叶斯分类器的一个核心特性是,即使只有随机子集的 CpG 位点可用,它也能够准确预测肿瘤类型。
- 尽管缺失值对于大多数其他机器学习方法来说是一个主要挑战,但在使用朴素贝叶斯模型时,它们本质上很容易处理:只要测量值是随机缺失的,就可以简单地忽略它们。
Para_06
- 综合来看,在缺失观测值超过98%的低覆盖率纳米孔测序背景下,伯努利朴素贝叶斯分类器特别适合用于术中分类。
Para_07
- 由于大多数脑肿瘤类型缺乏广泛的甲基化测序参考,我们使用了一个公开可用的包含2,801个样本的450k甲基化阵列图谱,涵盖91种中枢神经系统(CNS)肿瘤和对照类别以进行训练。
- 该数据集之前已被用于训练随机森林和神经网络算法,以完成术中分类任务。
- 训练数据集中包含的91个类别标签代表了CNS肿瘤实体、提示性的分级信息和分子概念的组合,在某些情况下,还反映了具有未知临床意义的计算衍生样本组。
- 为了实际应用,我们将这91个CNS训练类别重新排列为44个MethyLYZR(MZ)CNS类别,依据是它们潜在的临床影响(扩展数据图2a,补充表1和补充文本),以及之前概述的八个广泛的甲基化类别家族(MCFs)。
- 例如,我们将训练数据集中识别出的六个胶质母细胞瘤亚型合并,以反映在标准诊断程序中这些特定亚型通常不被区分的临床现实。
- 同样,九种对照组织被归类为‘非诊断性组织’,这有助于区分肿瘤与非恶性或诊断不明确的组织,这对于临床决策具有重要意义。
Para_08
- MethyLYZR 的加权朴素贝叶斯算法训练高效且快速,特征数量上具有线性复杂度,样本数量上具有二次复杂度。
- 这种高效性使得该算法在需要极少计算资源的情况下即可完成训练:在高性能服务器上只需几分钟,在 2017 款 Apple iMac 个人电脑上不到一小时即可完成(图 1c、图例及补充表 2)。
Para_09
- 为了性能评估,我们最初生成了一个合成数据集,以根据 450k 甲基化阵列参考模拟浅层纳米孔甲基化模式(扩展数据图 3a)。
- 这包括为每个样本生成 100 个重复项,涵盖 91 种脑肿瘤类别中的每一种,每个重复项为每个 CpG 提供二进制甲基化数据(总计 280,100 个合成样本)。
- 为了评估测序深度对准确性的影响,我们从合成的纳米孔图谱中抽取了1到20,000个CpG位点的甲基化数据。
- 仅使用1,000个随机选择的CpG位点,这在所有280,100个合成样本中导致各类别的总体中位数准确率为91.45%、97.02%和95.47%(占所有建模CpG位点的0.2%;分别为CNS、MZ CNS和MCFs;图2a,扩展数据图3b和补充表3–5)。
- 随着增加CpG位点的数量,准确性得到提高,并在大约7,500个CpG位点时趋于饱和。
- 在这个数量的CpG位点上,我们在所有样本中的91个CNS类别中观察到94.52%的准确性(图2b)。
- 此外,在引入高达10%的甲基化呼叫错误率的情况下,准确性似乎保持稳定(分别在1%、2.5%、5%和10%的错误率下为94.70%、94.53%、94.92%和93.73%;扩展数据图3c)。
- 值得注意的是,在所有测试的CpG数量中,大多数分类错误并非随机,而是局限于我们更广泛的诊断类别(对于7,500个CpG位点,MZ CNS类别的准确率为97.72%;图2a–c和扩展数据图3b及4a)。
Fig. 2: Highly accurate tumor class prediction from sparse, binary DNA methylation profiles based on 450k methylation arrays.
- 图片说明
◉ 评估使用 1,000、2,500、5,000、7,500、10,000、15,000 或 20,000 个 CpG 位点的合成样本的预测准确性。◉ 通过对 450k 数组中 2,801 个生物学独立样本(代表 91 种中枢神经系统癌症和对照甲基化类别)进行模拟,进行了 100 × 2,801 次低覆盖率纳米孔测序的计算机模拟。◉ 箱线图显示了中位数作为中心线,四分位距(第 25 百分位至第 75 百分位)作为箱子,并将离群值(超过 1.5 倍 IQR 的点)表示为须外的点。◉ 混淆矩阵展示了使用 7,500 个 CpG 位点对所有推算样本的预测结果,对于中枢神经系统类别总体准确率为 94.52%,对于 MZ 中枢神经系统类别准确率为 97.72%。◉ 颜色表示相对于每个参考类别的样本数量归一化的相对频率。◉ 分类错误由偏离对角线的偏差表示,临床相关组(MZ 中枢神经系统类别)通过彩色方框突出显示。◉ F1 分数在右侧提供。◉ 放大显示 F1 分数略低于平均值的中枢神经系统肿瘤类别组的混淆矩阵。◉ 混淆矩阵展示了在一个扩展数据集上的预测结果,包括中枢神经系统肿瘤、乳腺癌、肺癌和黑色素瘤中枢神经系统转移(91 种中枢神经系统类别和 2,801 个样本;三种转移类别和 85 个样本)。◉ 使用 7,500 个 CpG 位点,MethyLYZR 在区分乳腺、肺、黑色素瘤和中枢神经系统样本时分别实现了 90.31%、89.39%、88.76% 和 99.99% 的准确率。◉ 在三个复杂度递增的模型中预测 280,100 个模拟中枢神经系统样本后,每类 F1 分数的分布。◉ 这三个模型包括 91 种中枢神经系统类别(顶部)、91 种中枢神经系统 + 3 种转移类别(中部)以及 91 种中枢神经系统 + 3 种转移 + 64 种肉瘤类别(底部)。◉ 每种模型的 F1 分数以点表示,并通过箱线图和密度图总结。◉ 箱线图显示了中位数作为中心线,四分位距(第 25 百分位至第 75 百分位)作为箱子,并将离群值(超过 1.5 倍 IQR 的点)表示为须外的点。
- 从流行病学角度来看,颅内转移瘤的发病率估计是原发性脑肿瘤的十倍。
- 因此,当神经影像结果不明确、未知原发肿瘤、存在多个原发肿瘤或特定肿瘤特征可能影响治疗决策时,针对脑转移瘤的神经外科活检既频繁又至关重要。
- 为了扩大 MethyLYZR 的临床应用,并评估扩展其范围的影响,我们在训练数据集中增加了来自乳腺癌、肺癌和黑色素瘤脑转移的额外肿瘤样本(三种转移类别,85个样本)。
- 在这一扩展模型中测试 MethyLYZR 的预测能力时,我们首先使用中枢神经系统(CNS)和转移样本重新训练模型,并按照上述概述的方法生成合成的稀疏数据集(扩展数据图 3a)。
- 值得注意的是,在包含转移类别的情况下,我们的模型展示了通过随机选择的 7,500 个 CpG 位点的合成子集,以 88.76% 到 90% 的准确率区分脑部和转移性肿瘤样本的能力(图 2d,扩展数据图 5a 以及补充表 6 和 7)。
- 为了进一步评估 MethyLYZR 的适应性,我们将训练数据集扩展到包含肉瘤(64 类由 1,077 个样本表示),使总数达到 158 类。
- 然后我们评估了该模型在原始中枢神经系统(CNS)样本上的表现,以确定扩展到 CNS 和转移或 CNS、转移和肉瘤是否影响了预测的可靠性。
- F1 分数的统计分析(Wilcoxon 检验 P 值分别为 0.8339 和 0.2314)表明,尽管扩展模型的范围显著扩大,但准确性仍然得以保持(图 2e,扩展数据图 5a,b 以及补充表 4 和 7–9)。
- 为了将我们的方法适应术中测序,我们首先优化了适用于术中应用的文库制备策略(图3a和补充视频)。
- 具体来说,我们改进了一种商用的DNA制备方法,能够在22分钟内从脑肿瘤活检样本中一致地提取DNA。
- 接下来,我们优化了一种基于转座酶的快速纳米孔文库制备试剂盒的协议,在18分钟内获得测序文库。
- 该协议适用于小组织样本(10-15毫克),这是在常规神经外科手术过程中实际可获得的样本量,能够平行于当前临床综合诊断程序中的活检获取,提供足够的DNA用于纳米孔测序(R9需要600-700纳克,而由于R10灵敏度提高,仅需100-150纳克)。
- 此外,我们将MethyLYZR整合到牛津纳米孔技术(ONT)的标准碱基识别工作流程中,建立了一个实时甲基化处理管道。
- 这种端到端的集成使得可以直接从测序仪上的CpG甲基化数据进行即时的现场诊断癌症预测,无需依赖互联网。
- 使用我们优化的工作流程,我们可以在大约15-20分钟的测序时间内获得足够的甲基化测量数据。
- 这使我们能够在不到1小时内完成从活检获取到预测的整个过程(图3a)。
Fig. 3: Workflow for intraoperative shallow Nanopore sequencing.
- 图片说明
◉ a,我们研究中关于术中肿瘤测序和分类的时间线示意图。从肿瘤活检接收开始,在短短1小时内即可完成癌症类别的预测。该过程包括基因组DNA提取(约22分钟)、Nanopore文库制备(约18分钟)以及文库加载后的后续测序(15-20分钟)。◉ b,本研究中来自中枢神经系统(CNS)癌症患者的Nanopore和450k甲基化阵列队列描述。总共对51名患者的样本进行了75次Nanopore运行,并且对于其中22名患者,从匹配的肿瘤活检中生成了450k甲基化阵列。◉ c,基于我们75次Nanopore运行队列得出的测序时间和至少被测序一次的CpG位点数量之间的关系。在测序的前24小时内,新观察到的CpG位点数量随测序时间增加而上升,随后进入每CpG位点覆盖度增强的饱和阶段(左侧)。在测序15分钟内,平均覆盖约7,500个CpG位点(右侧)。数据以均值±标准差表示。◉ d,使用在91种中枢神经系统肿瘤和三种转移性肿瘤类别上训练的模型,在Apple iMac Pro(3 GHz 10核Intel Xeon W处理器、64 GB 2,666 MHz DDR4内存、1 TB APFS SSD硬盘、Radeon Pro Vega 56 GPU配8 GB VRAM、macOS 13.2.1系统)上对我们的Nanopore运行进行MethyLYZR预测时间的基准测试分析。对于15分钟测序数据,运行时间极短(平均小于1秒),即使在完整的72小时运行情况下,预测时间仍远低于4分钟,甚至在极端情况下也平均不到1分钟。顶部数字表示每次时间基准测试的平均CpG位点数量。柱状图代表中位数,误差条表示标准差。gDNA,基因组DNA。
- 使用我们优化的策略,该策略用于文库准备大约需要40分钟,我们利用MinION测序仪和R9流动细胞从51个患者活检样本中生成了75个独立的纳米孔测序实验(图3b和补充表10)。
- 对于此样本集,术后诊断基于分子标记和大学中心神经病理学家的组织病理学评估。
- 与之前的分类研究一致,我们根据术中实际应用的视角将样本分组为MZ中枢神经系统类别(扩展数据图2a)。
- 我们的纳米孔参考样本涵盖了10种不同的脑肿瘤类别。
- 为了验证,我们通过匹配22个样本的Illumina EPIC甲基化阵列扩展了数据集(补充表11)。
- 总体而言,这些样本的纳米孔测序表明,在最初的几个小时内,测序时间和模型特征覆盖率之间几乎呈线性相关,约24小时后达到饱和(图3c)。
- 在我们工作流程允许的15分钟测序时间内,我们获得了1,878至12,487个CpG位点,平均约为7,500个CpG位点(补充表12)。
- 基于上述合成数据的结果,我们预计我们的协议能够从稀疏的CpG甲基化数据中实现稳健且可靠的活体肿瘤诊断。
- 由于肿瘤分类预测将与正在进行的纳米孔测序并行运行,我们还评估了随着CpG数量增加进行预测所需的时间和内存要求(图3d)。
- 值得注意的是,即使对于完整的72小时运行,计算成本(特别是时间和内存方面)仍然可以忽略不计——平均需要不到1分钟的时间和不到3 GB的RAM,覆盖超过200,000个独特的CpG位点。
- 对于10个样本的子集,在术中环境中运行了整个工作流程(补充视频)。
- 鉴于临床验证的时间线严格限制在不到1小时,每一步——从手术规划、活检处理到DNA提取、纳米孔测序和生物信息学分析——都紧密相连。
- 术中过程之前需要建立一个定制的实验室,制定伦理、法律和科学框架,并进行特定的手术规划(见方法部分‘临床演示实验工作流程’小节)。
- 时间紧迫的术中步骤包括从肿瘤活检中快速提取和测序DNA,随后实时应用MethyLYZR算法,这证实了我们在临床环境中的周转时间约为22 + 18分钟直至开始测序(扩展数据图6a和补充表10)。
- 在确定我们优化的工作流程能够在样本接收后1小时内完成肿瘤类别预测后,我们接下来评估了MethyLYZR在我们75个样本上的表现。
- 对于其中73个样本,我们在前15分钟内从测序数据中获得了置信度较高的分类结果,其后验概率大于0.6,并提供了准确率为94.52%的诊断结果(图4a,扩展数据图6b和补充表13)。
- 对于同时具备快速纳米孔测序和EPIC甲基化阵列数据的22例活检样本,我们观察到诊断结果的高度一致性,这进一步强调了我们的基于纳米孔的检测方法在临床应用中的潜在可靠性和准确性(MZ CNS一致率达到100%;扩展数据图6c和补充表11及13)。
Fig. 4: MethyLYZR predicts cancer classes from CNS cancer as well as spinal cord liquid biopsies with high accuracy.
- 图片说明
◉ 混淆矩阵展示了使用测序开始后 15 分钟内获得的 CpGs 对所有 Nanopore 样本预测结果,MZ 中枢神经系统类别的总体准确率为 94.52%。◉ 分类错误由偏离对角线表示,每类的 F1 分数在右侧展示。◉ 评估了从 5 分钟到 72 小时不同测序时间范围内的预测能力。◉ 观察到从 5 分钟到 15 分钟测序时间内预测准确率的最大提升(从 89.06% 提高到 94.52%)。◉ 超过这一区间后,延长测序时间仅带来了微小的准确率改进(从 15 分钟的 94.52% 到 72 小时的 97.22%)。◉ 基于 7,500 个 CpGs 模拟 15 分钟测序时间,对 96 个通过 Nanopore 测序的中枢神经系统肿瘤进行分类预测,并按估计纯度(ACE)分层。◉ 随着纯度增加,MethyLYZR 的准确性呈现上升趋势,从大约 60% 的肿瘤纯度开始,诊断准确性持续保持较高水平。◉ 从左到右的准确性(%)依次为:82.2、84.8、87.5、87.3、90.6、92.6、96.9、100.0、100.0 和 100.0。◉ 对来自儿童中枢神经系统肿瘤患者的 17 个脑脊液样本中的循环游离 DNA 进行分类预测,这些样本覆盖超过 2,500 个 CpGs,且估计的肿瘤比例高于 0.1。◉ MethyLYZR 对 17 个样本中的 16 个提供了高置信度预测,在这些样本中实现了 93% 的准确性,其中包括一个被预测为转移性(而非中枢神经系统原发)的转移病灶。◉ 用于预测的 CpGs 数量(从左到右)分别为:208,678;100,598;259,863;45,822;51,741;20,309;188,340;8,861;50,493;9,150;3,058;7,453;198,609;212,907;111,630 和 5,841。
- 为了评估我们分类器的预测能力是否会随着测序时间的延长而提高,我们在从5分钟到72小时的详细时间网格上采集了所有读数以进行预测。
- 在5分钟到15分钟的测序时间内,预测准确率的提升最为显著。
- 超过这一区间后,延长测序时间仅带来微小的准确率提升——从94.52%提高到97.22%,这突显了该模型在信息有限情况下的高效性。
- 然而,尽管当前方法无法仅通过15分钟的纳米孔测序获得拷贝数变异谱,但可以对完整的72次运行进行扩展分析,以获取全基因组范围内的拷贝数变化,从而进行全面的神经病理学评估。
- 此外,补充图2和图3展示了相关结果。
- 尽管我们的策略需要基于单个患者-单个流动池的文库制备和测序,我们还是将基准测试扩展到了更高通量的情景。
- 我们使用快速、多重条形码标记的文库制备方法,在PromethION R10流动池上(ONT)对180例脑肿瘤活检样本进行了测序,涵盖了14种中枢神经系统肿瘤类别,并在P2 Solo和P24系统上保持了每例样本相同的文库制备时间(来自154名患者的180个纳米孔文库)。
- MethyLYZR报告了147个样本的分类结果,使用类似于15分钟测序获得的CpG数据,总体MZ CNS分类准确率为91.78%(34个样本低于阈值;扩展数据图7a,b和补充表15)。
- 该模型能够准确识别常见的肿瘤类别(如胶质母细胞瘤、星形细胞瘤和少突胶质细胞瘤),同时也能够识别较为罕见的肿瘤类型,例如神经节瘤、非典型畸胎样/横纹肌样瘤(AT/RT)以及带有H3K27M突变的弥漫性中线胶质瘤,证明了其在多重高通量环境中的有效性。
- 为了评估 MethyLYZR 在术中冷冻切片神经病理学方面的临床实用性,我们分析了来自我们回顾性高通量队列的 26 例脑肿瘤活检样本,这些样本具有可用的冷冻切片诊断结果。
- MethyLYZR 的结果显示与更广泛的快速冷冻切片分类有 100% 的类别一致性,并提供了细致的反馈信息。
- 这种增强的诊断精确性与整合的 WHO 诊断分组更加一致,能够为神经外科医生提供比传统术中组织病理学评估更为详细的见解。
- 我们将验证分析扩展到了一个由20名患者组成的27个脑转移瘤队列,这些转移瘤主要来源于肺、乳腺和黑色素瘤,此外还包括结肠癌和子宫内膜癌的病例。
- 我们针对这些转移瘤的训练数据集较为有限,缺乏结肠和子宫内膜转移瘤的数据,并且其他类型转移瘤之间存在较高的核相关性(>0.93)(扩展数据图7d)。
- 鉴于临床的主要关注点是区分转移瘤和原发性脑肿瘤,我们专注于将样本分类为中枢神经系统(CNS)肿瘤或非CNS肿瘤(造血系统癌症、对照组或转移瘤)。
- MethyLYZR对这些样本中的81%提供了分类结果,其中大多数被识别为转移瘤,没有被识别为CNS肿瘤(22例非CNS:15例转移瘤和7例对照或造血系统癌症;扩展数据图7d–f及补充表15)。
- 我们通过分析 16 个样本,进一步评估了 MethyLYZR 在不同甲基化分析技术中的表现,这些样本使用了 PacBio HiFi、Illumina EPIC 芯片以及 R9 快速和 R10 快速条形码纳米孔测序协议。
- 这种多平台方法使我们能够比较特定技术的错误模型及其对预测准确性的影响。
- 由于 HiFi 读段的高准确性,我们未对 PacBio 数据应用后验过滤。
- 在这有限的样本集中,MethyLYZR 使用完整的 PacBio 数据集(无后验过滤,类似于 EPIC 芯片)在 16 个样本中实现了 16 个正确分类,可能超越了两种纳米孔版本和针对芯片优化的 DKFZ 分类器。
- 这一点在较少数量的 CpG 位点时尤为明显,PacBio 测序相比纳米孔测序能以更高的准确性和敏感性表征肿瘤。
- 然而,该技术不支持实时测序,因此无法用于术中分类。
- 以往的研究强调了肿瘤纯度在稳健的中枢神经系统肿瘤分类中的关键作用。
- 通过分析94个脑肿瘤样本的纳米孔数据集,这些样本与Illumina EPIC阵列数据匹配,我们发现纯度与MethyLYZR的诊断准确性之间存在正相关关系。
- 当纯度超过60%时,分类的准确性提高,错误分类减少;纯度高于70%时未出现错误(图4c和补充表18)。
- 这些结果突显了有效神经外科采样的重要性,并指出了对肿瘤进行可靠诊断的挑战,特别是对于具有浸润性生长或低细胞密度的肿瘤(扩展数据图8a)。
- 基于DNA甲基化的分类方法,通过脑脊液(CSF)液体活检提供了一种有前景的诊断工具,特别是对于脑干肿瘤,结合了微创采样与分子水平的洞察。
- 我们分析了来自17个CSF样本中的无细胞DNA(cfDNA),这些样本因其典型的组蛋白相关片段大小(CSF中为50-700 bp)和样本纯度大于0.1而被选择。
- 包含41个样本的完整队列分析结果已在扩展数据图8b,c(补充表19)中展示,这些样本具有较低的CpG数量和低于0.1的纯度。
- 这一选择旨在验证MethyLYZR利用真实cfDNA对肿瘤进行分类的能力,此前它已被证明在使用细胞衍生DNA时的有效性。
- 尽管本实验集中于针对cfDNA的特定分析以用于液体活检诊断,但在临床应用中,MethyLYZR将用于处理临床CSF样本中任何DNA的甲基化模式。
- MethyLYZR准确地对16个样本中的15个进行了分类,这些样本达到了预测阈值,包括正确识别一个转移瘤为非中枢神经系统肿瘤,这表明其在基于CSF中cfDNA的肿瘤分类中的有效性。
- 最后,在使用我们合成数据集的比较分析中,模拟15分钟的测序,MethyLYZR在数据有限的情况下表现出优于神经网络(Sturgeon)和基于随机森林(nanoDx)预测的性能(5,000、7,500和10,000个CpG位点)。
- 进一步证实这些结果,使用实际在15分钟内获得的纳米孔数据时,MethyLYZR的性能(在肿瘤纯度分层数据情况下为7,500个CpG位点)超过了两者的表现。
Discussion
Para_01
- 我们的研究表明,基于概率的朴素贝叶斯分类器 MethyLYZR 可以通过纳米孔测序实现神经系统恶性肿瘤的实时分子分类。
- 尽管还需要进一步验证,但这些初步结果令人鼓舞,并表明该分类器在此背景下的能力。
- 在模拟、转移瘤、肉瘤和术中临床场景中的全面评估,以及其在基于 cfDNA 的诊断中的潜在应用,突显了其多功能性。
- 此外,我们测试队列中预测的肿瘤类别与实际类别之间的高度一致性支持了该模型提供具有临床相关性的诊断的能力。
- 由于 MethyLYZR 具备实时肿瘤预测能力并结合纳米孔测序,仅 DNA 提取时间、文库制备和测序仪通量是实现更快术中结果的限制因素。
- 然而,仍需通过多中心临床试验和前瞻性研究进行验证,以确保该模型在大规模和多样化的样本队列及测序条件下的稳健性,最终确立其在临床应用中的可靠性和实用性。
Para_02
- 本研究的结果还突显了术中神经病理学的一个核心应用场景,即目前所有可用的术中测序工作流程都失败的地方,无论采用何种算法:识别肿瘤边缘残留的恶性细胞,或在疑似复发时区分活跃肿瘤和治疗效果。
- 目前,高肿瘤细胞纯度对于获得可靠的术中测序分类至关重要。
- 由于从低肿瘤细胞含量的批量测序数据中识别脑肿瘤的表观遗传特征本质上是不可能的,无论使用何种算法,我们推测这将是实时人工智能(AI)算法开发的下一个前沿领域之一。
Para_03
- 特别地,使用 MethyLYZR 进行肿瘤类别预测的准确性,结合特设随机森林分类器和神经网络,达到了类似的平台期,这表明这些基于甲基化的不同算法在解读和解释癌症分类的生物信号方面可能具有相似的上限。
- 然而,尽管 Sturgeon 报告称大多数肿瘤样本从活检提取 DNA 到实体预测大约需要 1.25 小时,MethyLYZR 仍保持在 1 小时限制内,更符合手术时间安排。
- 在比较分析中,MethyLYZR 在这种极短时间限制下评估时表现出比 Sturgeon 和 nanoDx 更高的准确性。
- 这一结果令人惊讶,因为朴素贝叶斯算法在特征独立性和简单性(方法)的反直觉假设下运行,而神经网络擅长建模特征之间的复杂交互和依赖关系。
- 然而,术中获得的数据的稀疏性和随机性可能会降低高度表达的人工智能系统的有效性。
- 此外,在此背景下,特设随机森林分类器面临挑战,因为它们需要针对每个稀疏数据集重新训练,导致更高的运行时间——对于 7,500 个 CpG 位点,nanoDx 需要超过 20 分钟,而 MethyLYZR 在同一系统上不到 1 分钟,这也更符合临床应用中的‘模型简约性’概念。
Para_04
- 模型简约性强调诊断模型的简单性、有效性、可处理性和透明性。
- 这一原则提倡使用最简单的且有效的可解释方法,同时承认传统相关分析已充分记录的局限性和后果。
- 这种方法并不否定使用先进的机器学习技术,而是建议在简单模型不足以解决问题的情况下应用这些技术。
- 展望未来,将异构信号(如DNA甲基化、突变特征、拷贝数变异、断裂点测定和肿瘤纯度)与其他模态(如患者特征、磁共振成像(MRI)和拉曼组织学)整合到非线性神经网络模型中将是分子神经病理学面临的下一个挑战。
- 利用像MethyLYZR这样的简单概率模型来补充和增强高级人工智能系统,有望在个性化诊断和治疗策略上取得重大进展,同时符合医疗护理中的透明性和可解释性要求。
Para_05
- 然而,实现这些技术的全部潜力面临着实际的障碍。
- 尽管迄今为止最全面的中枢神经系统肿瘤分类器是在超过10万个甲基化数组上进行训练的,但2018年发布的一个基础数据集仍然是本研究及其他研究中使用的唯一公开可用的综合资源,用于算法和临床模型的开发。
- 然而,最重要的限制是公开可用的、基于测序的DNA甲基化训练和测试数据的稀缺性。
- 数据的不足不仅限制了模型的开发,还限制了算法的验证和改进,无法充分利用人类基因组中所有3200万个CpG位点提供的更为丰富的信息。
Para_06
- 展望未来,术中诊断的出现对传统的医疗系统结构提出了挑战。
- 在不到1小时内实现中枢神经系统肿瘤的精确诊断标志着范式的转变,需要整合神经外科、神经病理学和神经肿瘤学的工作流程。
- 术中肿瘤分类系统的临床前开发不仅为比较不同切除策略和其他治疗方式的前瞻性临床试验开辟了途径,还要求个性化肿瘤学进行系统性变革,以适应高度集成、实时的现场诊断过程。
Data availability
Para_01
- 通过 Nanopore 或 PacBio 测序获得的测序数据已存储在欧洲基因组-表型档案库中(研究访问编号为 EGAS50000000559,Nanopore R9 数据集访问编号为 EGAD50000000832,Nanopore R10 数据集访问编号为 EGAD50000000791,PacBio 数据集访问编号为 EGAD50000000798)。
- 甲基化值以 feather 格式存储于 .5281/zenodo.13236096。
- 补充视频已存储于 .5281/zenodo.13324497。
- 之前发布的 450k 或 EPIC 数组用于分类器的训练和评估:脑部正常和癌症数据(GSE90496 和 GSE109379)、转移数据(GSE108576)以及肉瘤数据(GSE140686)。
- 用于纯度分析的 DNA 甲基化数据由 Djirackor 等人先前发表,并按照上述方法重新处理以用于本研究。
- 液体活检分析的 DNA 甲基化数据通过与原研究作者的个人沟通直接获取。
Code availability
Para_01
- 带有预训练模型和测试数据的 MethyLYZR 代码以及文档可在以下链接获取:。
从稀疏的表观基因组数据中快速分类脑肿瘤
Basic Information
- 英文标题:Rapid brain tumor classification from sparse epigenomic data
- 中文标题:从稀疏的表观基因组数据中快速分类脑肿瘤
- 发表日期:28 February 2025
- 文章类型:Article
- 所属期刊:Nature Medicine
- 文章作者:Björn Brändl | Franz-Josef Müller
- 文章链接:
Abstract
Para_01
- 尽管对迄今为止描述的大约100种已知脑肿瘤实体进行术中分子诊断是过去十年神经病理学的目标,但在活检采集后不到1小时内实现这一目标仍然难以达成。
- 第三代测序技术的进步使这一目标更加接近,但现有的机器学习技术依赖于计算密集型方法,使其在临床应用中的实时诊断工作流程中不切实际。
- 在此,我们介绍 MethyLYZR,这是一种基于朴素贝叶斯框架的方法,能够完全可行地对癌症表观基因组进行实时分类。
- 为了评估其性能,我们使用纳米孔测序对超过200个脑肿瘤样本进行了分类,其中包括在手术室附近临床环境中测序的10个样本,在测序开始后的15分钟内取得了高度准确的结果。
- MethyLYZR 可以与正在进行的纳米孔实验并行运行,并且几乎不会增加计算开销。
- 因此,实现更快结果输出的唯一限制因素是DNA提取时间和纳米孔测序仪的最大并行处理能力。
- 尽管需要更多来自前瞻性研究的证据,我们的研究表明,MethyLYZR 不仅可以用于神经外科术中场景下通过纳米孔测序对神经系统恶性肿瘤进行实时分子分类,还适用于其他肿瘤学指征以及通过液体活检中的无细胞DNA对肿瘤进行分类。
Main
Para_01
- 肿瘤外科手术中的术中诊断程序可以追溯到19世纪末期,并且对患者的预后产生了实质性的影响。
- 它们主要服务于两个临床目的:首先,确定病理诊断;其次,评估切除边缘的肿瘤细胞。
- 最直接的术中应用案例是区分适合手术的肿瘤和更适合非手术治疗方式的肿瘤。
- 现代神经病理学对分子定义、特别是表观遗传定义的肿瘤分类的依赖性,在世界卫生组织(WHO)最新版中枢神经系统(CNS)肿瘤分类中得到了体现。
- 这一分类部分基于这样一个基本认识:在中枢神经系统中发现的恶性肿瘤可以根据全基因组甲基化谱被识别并归类为不同的肿瘤类型。
- 具体来说,由Capper等人开发的一种使用随机森林模型进行甲基化微阵列分析的方法,如今能够对多达184种中枢神经系统肿瘤类别进行分类(DKFZ脑分类器12.8),并且已被整合到临床实践中。
- 然而,目前在转化研究和临床常规中使用的所有全基因组分子方法都需要几天甚至几周的时间才能完成,这使得它们无法用于次日或术中诊断应用。
Para_02
- 纳米孔测序已成为护理点(POC)临床前研究中的变革性技术。
- 三项特定特性使这项技术成为在神经肿瘤手术时间范围内提供分子信息的理想候选者。
- 首先,核苷酸分辨率的序列数据在DNA或RNA链进入纳米孔后仅需几毫秒即可用于进一步分析和解释。
- 其次,在同一即时时间范围内可以获得这些核苷酸序列的表观遗传修饰信息。
- 第三,基于转座酶的纳米孔测序文库制备可在几分钟内完成,从而实现护理点处设备占用较小的临床测序工作流程。
Para_03
- 一些工作流程采用纳米孔测序来诊断中枢神经系统肿瘤,有时在一天内甚至在神经肿瘤手术过程中完成。
- 这些诊断是通过根据特征性的 CpG 甲基化谱对肿瘤进行分类实现的。
- 最初提出的随机森林方法已被定制用于适应性纳米孔测序,形成了一个为期四天的工作流程,并且最近已被修改以支持术中应用。
- 这种应用场景涉及针对样本的即时训练,仅覆盖每个纳米孔测序实验中的 CpG 位点,通常从样本到结果需要 1.5 小时(91 至 161 分钟)。
Para_04
- 样本到结果的时间和临床相关的诊断准确性是任何术中诊断程序的主要关注点。
- 尽管典型的中枢神经系统肿瘤切除手术需要中位时间为3小时(179分钟;范围123-250分钟),但在神经外科医生到达脑肿瘤并获取活检的任何诊断信息后,能够实际影响后续切除范围的决策时间通常限制在1小时以内(图1a)。
- 虽然基于成像的刺激拉曼组织学已显示出少于2.5分钟的样本到结果时间,但目前其底层神经网络识别的肿瘤类别数量(n=13)远少于通过综合分子方法可区分的类别数量(n=108)。
Fig. 1: MethyLYZR enables tumor class prediction on sparse data without model retraining.
- 图片说明
◉ 简化的脑部手术流程时间表示意图。阶段包括以下内容:(1)诱导,涉及麻醉、患者定位以及神经导航调整(大约45-60分钟);(2)切开并进入肿瘤(大约30分钟);(3)肿瘤切除(大约60分钟)和(4)回缩并完成缝合(大约30分钟)。值得注意的是,60分钟的肿瘤切除阶段是获取分子诊断的关键时间窗口。然而,现有的分子诊断周转时间超过了手术过程的时长。◉ 朴素贝叶斯算法训练和预测过程的图示。多个肿瘤类别(m类)通过若干样本提供CpG甲基化比率(p特征)用于算法训练。训练涉及根据提供的样本(S₁,...,Sₙₘ)生成m个中心点(μ),描述每个肿瘤类别中n个CpGs(特征)的平均甲基化概率。此外,针对每个CpG和类别计算权重(w),反映特定肿瘤类别中CpG的预测能力。在给定样本中进行肿瘤类别预测时,单个分子的稀疏二进制甲基化值——例如通过纳米孔测序获得——作为预训练伯努利朴素贝叶斯模型的输入。输出包含模型中所有肿瘤类别的后验概率排名列表。◉ MethyLYZR训练时间的基准分析,基于已发布的中枢神经系统450k甲基化阵列数据,涵盖91个肿瘤类别,总计2801个样本。训练在单核上执行,使用戴尔PowerEdge R7525服务器(3 GHz AMD 64核处理器,256 CPU,1031.3 GB DDR4内存,Linux系统)和苹果iMac Pro(3 GHz 10核Intel Xeon W,64 GB 2666 MHz DDR4内存,1 TB APFS SSD,Radeon Pro Vega 56 GPU,8 GB VRAM,macOS 13.2.1)。值得注意的是,中心点和权重训练在服务器上不到20分钟完成,在iMac Pro上不到40分钟完成。
Para_05
- 最近,将神经网络模型应用于纳米孔数据的实践中,在几秒内得出了与特设的随机森林分类器相似精度的预测结果,展示了从样本到结果大约1.25小时的实际可行周转时间。
- 然而,由于公开可用的训练数据量有限,深度学习需要模拟数千万个纳米孔数据集来训练和验证复杂的分类器,同时还需要大量的计算资源来进行超参数调整。
Para_06
- 在这里,我们提出了 MethyLYZR,这是一个概率框架,能够直接从稀疏的 DNA 甲基化谱中对恶性转化组织进行分类,而无需专门训练。
- MethyLYZR 的结果在许多情况下与竞争方法的诊断准确性相似甚至更优。
Results
Para_01
- 纳米孔测序是一种随机的‘鸟枪法’测序方法。
- 尽管它具有高通量扩展的潜力,但在神经外科肿瘤手术的关键时间内,它实际上只能捕获人类基因组的一小部分,通常远低于2%。
- 在这种情况下,与甲基化阵列或深度测序数据集不同,浅层纳米孔测序针对CpG位点的甲基化状态提供单分子的二元输出。
- 每个DNA分子上的每个CpG位点被分类为甲基化或非甲基化,这与通过甲基化阵列通常获得的连续、整体甲基化测量值(甲基化率或概率)不同。
- 另一个主要挑战是随机获取的特征集合——每次测序实验都会恢复一个不同的、随机的CpG子集。
Para_02
- 这些特定的约束条件使得伯努利朴素贝叶斯分类器成为解决在最短时间内分类癌症表观基因组的独特算法挑战的合适框架。
- 该分类器使用贝叶斯定理,根据新出现的甲基化数据,更新肿瘤样本属于某一特定癌症类别的可能性(图1b)。
Para_03
- 为了训练伯努利朴素贝叶斯分类器,我们使用来自Illumina 450k甲基化阵列的数据,计算不同癌症类别中每个CpG位点的平均甲基化率。
- 这为我们提供了每个癌症类别中每个CpG位点的甲基化概率(图1b,顶部)。
- 随后,MethyLYZR应用加权系统来提高这些概率的准确性,特别是在区分密切相关的癌症类型时。
- 该系统还考虑了不同CpG位点之间的甲基化模式通常是相关的这一事实,这有助于提高模型的可靠性(方法;补充图1;图1b顶部;以及扩展数据图1)。
Para_04
- 对于实际的癌症分类,朴素贝叶斯分类器会根据纳米孔测序提供的新甲基化数据更新其对可能肿瘤类型的预测(图1b,底部)。
- 它生成一个可能的肿瘤类别列表,并将概率最高的类别确定为最可能的结果。
Para_05
- 值得注意的是,朴素贝叶斯分类器的一个核心特性是,即使只有随机子集的 CpG 位点可用,它也能够准确预测肿瘤类型。
- 尽管缺失值对于大多数其他机器学习方法来说是一个主要挑战,但在使用朴素贝叶斯模型时,它们本质上很容易处理:只要测量值是随机缺失的,就可以简单地忽略它们。
Para_06
- 综合来看,在缺失观测值超过98%的低覆盖率纳米孔测序背景下,伯努利朴素贝叶斯分类器特别适合用于术中分类。
Para_07
- 由于大多数脑肿瘤类型缺乏广泛的甲基化测序参考,我们使用了一个公开可用的包含2,801个样本的450k甲基化阵列图谱,涵盖91种中枢神经系统(CNS)肿瘤和对照类别以进行训练。
- 该数据集之前已被用于训练随机森林和神经网络算法,以完成术中分类任务。
- 训练数据集中包含的91个类别标签代表了CNS肿瘤实体、提示性的分级信息和分子概念的组合,在某些情况下,还反映了具有未知临床意义的计算衍生样本组。
- 为了实际应用,我们将这91个CNS训练类别重新排列为44个MethyLYZR(MZ)CNS类别,依据是它们潜在的临床影响(扩展数据图2a,补充表1和补充文本),以及之前概述的八个广泛的甲基化类别家族(MCFs)。
- 例如,我们将训练数据集中识别出的六个胶质母细胞瘤亚型合并,以反映在标准诊断程序中这些特定亚型通常不被区分的临床现实。
- 同样,九种对照组织被归类为‘非诊断性组织’,这有助于区分肿瘤与非恶性或诊断不明确的组织,这对于临床决策具有重要意义。
Para_08
- MethyLYZR 的加权朴素贝叶斯算法训练高效且快速,特征数量上具有线性复杂度,样本数量上具有二次复杂度。
- 这种高效性使得该算法在需要极少计算资源的情况下即可完成训练:在高性能服务器上只需几分钟,在 2017 款 Apple iMac 个人电脑上不到一小时即可完成(图 1c、图例及补充表 2)。
Para_09
- 为了性能评估,我们最初生成了一个合成数据集,以根据 450k 甲基化阵列参考模拟浅层纳米孔甲基化模式(扩展数据图 3a)。
- 这包括为每个样本生成 100 个重复项,涵盖 91 种脑肿瘤类别中的每一种,每个重复项为每个 CpG 提供二进制甲基化数据(总计 280,100 个合成样本)。
- 为了评估测序深度对准确性的影响,我们从合成的纳米孔图谱中抽取了1到20,000个CpG位点的甲基化数据。
- 仅使用1,000个随机选择的CpG位点,这在所有280,100个合成样本中导致各类别的总体中位数准确率为91.45%、97.02%和95.47%(占所有建模CpG位点的0.2%;分别为CNS、MZ CNS和MCFs;图2a,扩展数据图3b和补充表3–5)。
- 随着增加CpG位点的数量,准确性得到提高,并在大约7,500个CpG位点时趋于饱和。
- 在这个数量的CpG位点上,我们在所有样本中的91个CNS类别中观察到94.52%的准确性(图2b)。
- 此外,在引入高达10%的甲基化呼叫错误率的情况下,准确性似乎保持稳定(分别在1%、2.5%、5%和10%的错误率下为94.70%、94.53%、94.92%和93.73%;扩展数据图3c)。
- 值得注意的是,在所有测试的CpG数量中,大多数分类错误并非随机,而是局限于我们更广泛的诊断类别(对于7,500个CpG位点,MZ CNS类别的准确率为97.72%;图2a–c和扩展数据图3b及4a)。
Fig. 2: Highly accurate tumor class prediction from sparse, binary DNA methylation profiles based on 450k methylation arrays.
- 图片说明
◉ 评估使用 1,000、2,500、5,000、7,500、10,000、15,000 或 20,000 个 CpG 位点的合成样本的预测准确性。◉ 通过对 450k 数组中 2,801 个生物学独立样本(代表 91 种中枢神经系统癌症和对照甲基化类别)进行模拟,进行了 100 × 2,801 次低覆盖率纳米孔测序的计算机模拟。◉ 箱线图显示了中位数作为中心线,四分位距(第 25 百分位至第 75 百分位)作为箱子,并将离群值(超过 1.5 倍 IQR 的点)表示为须外的点。◉ 混淆矩阵展示了使用 7,500 个 CpG 位点对所有推算样本的预测结果,对于中枢神经系统类别总体准确率为 94.52%,对于 MZ 中枢神经系统类别准确率为 97.72%。◉ 颜色表示相对于每个参考类别的样本数量归一化的相对频率。◉ 分类错误由偏离对角线的偏差表示,临床相关组(MZ 中枢神经系统类别)通过彩色方框突出显示。◉ F1 分数在右侧提供。◉ 放大显示 F1 分数略低于平均值的中枢神经系统肿瘤类别组的混淆矩阵。◉ 混淆矩阵展示了在一个扩展数据集上的预测结果,包括中枢神经系统肿瘤、乳腺癌、肺癌和黑色素瘤中枢神经系统转移(91 种中枢神经系统类别和 2,801 个样本;三种转移类别和 85 个样本)。◉ 使用 7,500 个 CpG 位点,MethyLYZR 在区分乳腺、肺、黑色素瘤和中枢神经系统样本时分别实现了 90.31%、89.39%、88.76% 和 99.99% 的准确率。◉ 在三个复杂度递增的模型中预测 280,100 个模拟中枢神经系统样本后,每类 F1 分数的分布。◉ 这三个模型包括 91 种中枢神经系统类别(顶部)、91 种中枢神经系统 + 3 种转移类别(中部)以及 91 种中枢神经系统 + 3 种转移 + 64 种肉瘤类别(底部)。◉ 每种模型的 F1 分数以点表示,并通过箱线图和密度图总结。◉ 箱线图显示了中位数作为中心线,四分位距(第 25 百分位至第 75 百分位)作为箱子,并将离群值(超过 1.5 倍 IQR 的点)表示为须外的点。
- 从流行病学角度来看,颅内转移瘤的发病率估计是原发性脑肿瘤的十倍。
- 因此,当神经影像结果不明确、未知原发肿瘤、存在多个原发肿瘤或特定肿瘤特征可能影响治疗决策时,针对脑转移瘤的神经外科活检既频繁又至关重要。
- 为了扩大 MethyLYZR 的临床应用,并评估扩展其范围的影响,我们在训练数据集中增加了来自乳腺癌、肺癌和黑色素瘤脑转移的额外肿瘤样本(三种转移类别,85个样本)。
- 在这一扩展模型中测试 MethyLYZR 的预测能力时,我们首先使用中枢神经系统(CNS)和转移样本重新训练模型,并按照上述概述的方法生成合成的稀疏数据集(扩展数据图 3a)。
- 值得注意的是,在包含转移类别的情况下,我们的模型展示了通过随机选择的 7,500 个 CpG 位点的合成子集,以 88.76% 到 90% 的准确率区分脑部和转移性肿瘤样本的能力(图 2d,扩展数据图 5a 以及补充表 6 和 7)。
- 为了进一步评估 MethyLYZR 的适应性,我们将训练数据集扩展到包含肉瘤(64 类由 1,077 个样本表示),使总数达到 158 类。
- 然后我们评估了该模型在原始中枢神经系统(CNS)样本上的表现,以确定扩展到 CNS 和转移或 CNS、转移和肉瘤是否影响了预测的可靠性。
- F1 分数的统计分析(Wilcoxon 检验 P 值分别为 0.8339 和 0.2314)表明,尽管扩展模型的范围显著扩大,但准确性仍然得以保持(图 2e,扩展数据图 5a,b 以及补充表 4 和 7–9)。
- 为了将我们的方法适应术中测序,我们首先优化了适用于术中应用的文库制备策略(图3a和补充视频)。
- 具体来说,我们改进了一种商用的DNA制备方法,能够在22分钟内从脑肿瘤活检样本中一致地提取DNA。
- 接下来,我们优化了一种基于转座酶的快速纳米孔文库制备试剂盒的协议,在18分钟内获得测序文库。
- 该协议适用于小组织样本(10-15毫克),这是在常规神经外科手术过程中实际可获得的样本量,能够平行于当前临床综合诊断程序中的活检获取,提供足够的DNA用于纳米孔测序(R9需要600-700纳克,而由于R10灵敏度提高,仅需100-150纳克)。
- 此外,我们将MethyLYZR整合到牛津纳米孔技术(ONT)的标准碱基识别工作流程中,建立了一个实时甲基化处理管道。
- 这种端到端的集成使得可以直接从测序仪上的CpG甲基化数据进行即时的现场诊断癌症预测,无需依赖互联网。
- 使用我们优化的工作流程,我们可以在大约15-20分钟的测序时间内获得足够的甲基化测量数据。
- 这使我们能够在不到1小时内完成从活检获取到预测的整个过程(图3a)。
Fig. 3: Workflow for intraoperative shallow Nanopore sequencing.
- 图片说明
◉ a,我们研究中关于术中肿瘤测序和分类的时间线示意图。从肿瘤活检接收开始,在短短1小时内即可完成癌症类别的预测。该过程包括基因组DNA提取(约22分钟)、Nanopore文库制备(约18分钟)以及文库加载后的后续测序(15-20分钟)。◉ b,本研究中来自中枢神经系统(CNS)癌症患者的Nanopore和450k甲基化阵列队列描述。总共对51名患者的样本进行了75次Nanopore运行,并且对于其中22名患者,从匹配的肿瘤活检中生成了450k甲基化阵列。◉ c,基于我们75次Nanopore运行队列得出的测序时间和至少被测序一次的CpG位点数量之间的关系。在测序的前24小时内,新观察到的CpG位点数量随测序时间增加而上升,随后进入每CpG位点覆盖度增强的饱和阶段(左侧)。在测序15分钟内,平均覆盖约7,500个CpG位点(右侧)。数据以均值±标准差表示。◉ d,使用在91种中枢神经系统肿瘤和三种转移性肿瘤类别上训练的模型,在Apple iMac Pro(3 GHz 10核Intel Xeon W处理器、64 GB 2,666 MHz DDR4内存、1 TB APFS SSD硬盘、Radeon Pro Vega 56 GPU配8 GB VRAM、macOS 13.2.1系统)上对我们的Nanopore运行进行MethyLYZR预测时间的基准测试分析。对于15分钟测序数据,运行时间极短(平均小于1秒),即使在完整的72小时运行情况下,预测时间仍远低于4分钟,甚至在极端情况下也平均不到1分钟。顶部数字表示每次时间基准测试的平均CpG位点数量。柱状图代表中位数,误差条表示标准差。gDNA,基因组DNA。
- 使用我们优化的策略,该策略用于文库准备大约需要40分钟,我们利用MinION测序仪和R9流动细胞从51个患者活检样本中生成了75个独立的纳米孔测序实验(图3b和补充表10)。
- 对于此样本集,术后诊断基于分子标记和大学中心神经病理学家的组织病理学评估。
- 与之前的分类研究一致,我们根据术中实际应用的视角将样本分组为MZ中枢神经系统类别(扩展数据图2a)。
- 我们的纳米孔参考样本涵盖了10种不同的脑肿瘤类别。
- 为了验证,我们通过匹配22个样本的Illumina EPIC甲基化阵列扩展了数据集(补充表11)。
- 总体而言,这些样本的纳米孔测序表明,在最初的几个小时内,测序时间和模型特征覆盖率之间几乎呈线性相关,约24小时后达到饱和(图3c)。
- 在我们工作流程允许的15分钟测序时间内,我们获得了1,878至12,487个CpG位点,平均约为7,500个CpG位点(补充表12)。
- 基于上述合成数据的结果,我们预计我们的协议能够从稀疏的CpG甲基化数据中实现稳健且可靠的活体肿瘤诊断。
- 由于肿瘤分类预测将与正在进行的纳米孔测序并行运行,我们还评估了随着CpG数量增加进行预测所需的时间和内存要求(图3d)。
- 值得注意的是,即使对于完整的72小时运行,计算成本(特别是时间和内存方面)仍然可以忽略不计——平均需要不到1分钟的时间和不到3 GB的RAM,覆盖超过200,000个独特的CpG位点。
- 对于10个样本的子集,在术中环境中运行了整个工作流程(补充视频)。
- 鉴于临床验证的时间线严格限制在不到1小时,每一步——从手术规划、活检处理到DNA提取、纳米孔测序和生物信息学分析——都紧密相连。
- 术中过程之前需要建立一个定制的实验室,制定伦理、法律和科学框架,并进行特定的手术规划(见方法部分‘临床演示实验工作流程’小节)。
- 时间紧迫的术中步骤包括从肿瘤活检中快速提取和测序DNA,随后实时应用MethyLYZR算法,这证实了我们在临床环境中的周转时间约为22 + 18分钟直至开始测序(扩展数据图6a和补充表10)。
- 在确定我们优化的工作流程能够在样本接收后1小时内完成肿瘤类别预测后,我们接下来评估了MethyLYZR在我们75个样本上的表现。
- 对于其中73个样本,我们在前15分钟内从测序数据中获得了置信度较高的分类结果,其后验概率大于0.6,并提供了准确率为94.52%的诊断结果(图4a,扩展数据图6b和补充表13)。
- 对于同时具备快速纳米孔测序和EPIC甲基化阵列数据的22例活检样本,我们观察到诊断结果的高度一致性,这进一步强调了我们的基于纳米孔的检测方法在临床应用中的潜在可靠性和准确性(MZ CNS一致率达到100%;扩展数据图6c和补充表11及13)。
Fig. 4: MethyLYZR predicts cancer classes from CNS cancer as well as spinal cord liquid biopsies with high accuracy.
- 图片说明
◉ 混淆矩阵展示了使用测序开始后 15 分钟内获得的 CpGs 对所有 Nanopore 样本预测结果,MZ 中枢神经系统类别的总体准确率为 94.52%。◉ 分类错误由偏离对角线表示,每类的 F1 分数在右侧展示。◉ 评估了从 5 分钟到 72 小时不同测序时间范围内的预测能力。◉ 观察到从 5 分钟到 15 分钟测序时间内预测准确率的最大提升(从 89.06% 提高到 94.52%)。◉ 超过这一区间后,延长测序时间仅带来了微小的准确率改进(从 15 分钟的 94.52% 到 72 小时的 97.22%)。◉ 基于 7,500 个 CpGs 模拟 15 分钟测序时间,对 96 个通过 Nanopore 测序的中枢神经系统肿瘤进行分类预测,并按估计纯度(ACE)分层。◉ 随着纯度增加,MethyLYZR 的准确性呈现上升趋势,从大约 60% 的肿瘤纯度开始,诊断准确性持续保持较高水平。◉ 从左到右的准确性(%)依次为:82.2、84.8、87.5、87.3、90.6、92.6、96.9、100.0、100.0 和 100.0。◉ 对来自儿童中枢神经系统肿瘤患者的 17 个脑脊液样本中的循环游离 DNA 进行分类预测,这些样本覆盖超过 2,500 个 CpGs,且估计的肿瘤比例高于 0.1。◉ MethyLYZR 对 17 个样本中的 16 个提供了高置信度预测,在这些样本中实现了 93% 的准确性,其中包括一个被预测为转移性(而非中枢神经系统原发)的转移病灶。◉ 用于预测的 CpGs 数量(从左到右)分别为:208,678;100,598;259,863;45,822;51,741;20,309;188,340;8,861;50,493;9,150;3,058;7,453;198,609;212,907;111,630 和 5,841。
- 为了评估我们分类器的预测能力是否会随着测序时间的延长而提高,我们在从5分钟到72小时的详细时间网格上采集了所有读数以进行预测。
- 在5分钟到15分钟的测序时间内,预测准确率的提升最为显著。
- 超过这一区间后,延长测序时间仅带来微小的准确率提升——从94.52%提高到97.22%,这突显了该模型在信息有限情况下的高效性。
- 然而,尽管当前方法无法仅通过15分钟的纳米孔测序获得拷贝数变异谱,但可以对完整的72次运行进行扩展分析,以获取全基因组范围内的拷贝数变化,从而进行全面的神经病理学评估。
- 此外,补充图2和图3展示了相关结果。
- 尽管我们的策略需要基于单个患者-单个流动池的文库制备和测序,我们还是将基准测试扩展到了更高通量的情景。
- 我们使用快速、多重条形码标记的文库制备方法,在PromethION R10流动池上(ONT)对180例脑肿瘤活检样本进行了测序,涵盖了14种中枢神经系统肿瘤类别,并在P2 Solo和P24系统上保持了每例样本相同的文库制备时间(来自154名患者的180个纳米孔文库)。
- MethyLYZR报告了147个样本的分类结果,使用类似于15分钟测序获得的CpG数据,总体MZ CNS分类准确率为91.78%(34个样本低于阈值;扩展数据图7a,b和补充表15)。
- 该模型能够准确识别常见的肿瘤类别(如胶质母细胞瘤、星形细胞瘤和少突胶质细胞瘤),同时也能够识别较为罕见的肿瘤类型,例如神经节瘤、非典型畸胎样/横纹肌样瘤(AT/RT)以及带有H3K27M突变的弥漫性中线胶质瘤,证明了其在多重高通量环境中的有效性。
- 为了评估 MethyLYZR 在术中冷冻切片神经病理学方面的临床实用性,我们分析了来自我们回顾性高通量队列的 26 例脑肿瘤活检样本,这些样本具有可用的冷冻切片诊断结果。
- MethyLYZR 的结果显示与更广泛的快速冷冻切片分类有 100% 的类别一致性,并提供了细致的反馈信息。
- 这种增强的诊断精确性与整合的 WHO 诊断分组更加一致,能够为神经外科医生提供比传统术中组织病理学评估更为详细的见解。
- 我们将验证分析扩展到了一个由20名患者组成的27个脑转移瘤队列,这些转移瘤主要来源于肺、乳腺和黑色素瘤,此外还包括结肠癌和子宫内膜癌的病例。
- 我们针对这些转移瘤的训练数据集较为有限,缺乏结肠和子宫内膜转移瘤的数据,并且其他类型转移瘤之间存在较高的核相关性(>0.93)(扩展数据图7d)。
- 鉴于临床的主要关注点是区分转移瘤和原发性脑肿瘤,我们专注于将样本分类为中枢神经系统(CNS)肿瘤或非CNS肿瘤(造血系统癌症、对照组或转移瘤)。
- MethyLYZR对这些样本中的81%提供了分类结果,其中大多数被识别为转移瘤,没有被识别为CNS肿瘤(22例非CNS:15例转移瘤和7例对照或造血系统癌症;扩展数据图7d–f及补充表15)。
- 我们通过分析 16 个样本,进一步评估了 MethyLYZR 在不同甲基化分析技术中的表现,这些样本使用了 PacBio HiFi、Illumina EPIC 芯片以及 R9 快速和 R10 快速条形码纳米孔测序协议。
- 这种多平台方法使我们能够比较特定技术的错误模型及其对预测准确性的影响。
- 由于 HiFi 读段的高准确性,我们未对 PacBio 数据应用后验过滤。
- 在这有限的样本集中,MethyLYZR 使用完整的 PacBio 数据集(无后验过滤,类似于 EPIC 芯片)在 16 个样本中实现了 16 个正确分类,可能超越了两种纳米孔版本和针对芯片优化的 DKFZ 分类器。
- 这一点在较少数量的 CpG 位点时尤为明显,PacBio 测序相比纳米孔测序能以更高的准确性和敏感性表征肿瘤。
- 然而,该技术不支持实时测序,因此无法用于术中分类。
- 以往的研究强调了肿瘤纯度在稳健的中枢神经系统肿瘤分类中的关键作用。
- 通过分析94个脑肿瘤样本的纳米孔数据集,这些样本与Illumina EPIC阵列数据匹配,我们发现纯度与MethyLYZR的诊断准确性之间存在正相关关系。
- 当纯度超过60%时,分类的准确性提高,错误分类减少;纯度高于70%时未出现错误(图4c和补充表18)。
- 这些结果突显了有效神经外科采样的重要性,并指出了对肿瘤进行可靠诊断的挑战,特别是对于具有浸润性生长或低细胞密度的肿瘤(扩展数据图8a)。
- 基于DNA甲基化的分类方法,通过脑脊液(CSF)液体活检提供了一种有前景的诊断工具,特别是对于脑干肿瘤,结合了微创采样与分子水平的洞察。
- 我们分析了来自17个CSF样本中的无细胞DNA(cfDNA),这些样本因其典型的组蛋白相关片段大小(CSF中为50-700 bp)和样本纯度大于0.1而被选择。
- 包含41个样本的完整队列分析结果已在扩展数据图8b,c(补充表19)中展示,这些样本具有较低的CpG数量和低于0.1的纯度。
- 这一选择旨在验证MethyLYZR利用真实cfDNA对肿瘤进行分类的能力,此前它已被证明在使用细胞衍生DNA时的有效性。
- 尽管本实验集中于针对cfDNA的特定分析以用于液体活检诊断,但在临床应用中,MethyLYZR将用于处理临床CSF样本中任何DNA的甲基化模式。
- MethyLYZR准确地对16个样本中的15个进行了分类,这些样本达到了预测阈值,包括正确识别一个转移瘤为非中枢神经系统肿瘤,这表明其在基于CSF中cfDNA的肿瘤分类中的有效性。
- 最后,在使用我们合成数据集的比较分析中,模拟15分钟的测序,MethyLYZR在数据有限的情况下表现出优于神经网络(Sturgeon)和基于随机森林(nanoDx)预测的性能(5,000、7,500和10,000个CpG位点)。
- 进一步证实这些结果,使用实际在15分钟内获得的纳米孔数据时,MethyLYZR的性能(在肿瘤纯度分层数据情况下为7,500个CpG位点)超过了两者的表现。
Discussion
Para_01
- 我们的研究表明,基于概率的朴素贝叶斯分类器 MethyLYZR 可以通过纳米孔测序实现神经系统恶性肿瘤的实时分子分类。
- 尽管还需要进一步验证,但这些初步结果令人鼓舞,并表明该分类器在此背景下的能力。
- 在模拟、转移瘤、肉瘤和术中临床场景中的全面评估,以及其在基于 cfDNA 的诊断中的潜在应用,突显了其多功能性。
- 此外,我们测试队列中预测的肿瘤类别与实际类别之间的高度一致性支持了该模型提供具有临床相关性的诊断的能力。
- 由于 MethyLYZR 具备实时肿瘤预测能力并结合纳米孔测序,仅 DNA 提取时间、文库制备和测序仪通量是实现更快术中结果的限制因素。
- 然而,仍需通过多中心临床试验和前瞻性研究进行验证,以确保该模型在大规模和多样化的样本队列及测序条件下的稳健性,最终确立其在临床应用中的可靠性和实用性。
Para_02
- 本研究的结果还突显了术中神经病理学的一个核心应用场景,即目前所有可用的术中测序工作流程都失败的地方,无论采用何种算法:识别肿瘤边缘残留的恶性细胞,或在疑似复发时区分活跃肿瘤和治疗效果。
- 目前,高肿瘤细胞纯度对于获得可靠的术中测序分类至关重要。
- 由于从低肿瘤细胞含量的批量测序数据中识别脑肿瘤的表观遗传特征本质上是不可能的,无论使用何种算法,我们推测这将是实时人工智能(AI)算法开发的下一个前沿领域之一。
Para_03
- 特别地,使用 MethyLYZR 进行肿瘤类别预测的准确性,结合特设随机森林分类器和神经网络,达到了类似的平台期,这表明这些基于甲基化的不同算法在解读和解释癌症分类的生物信号方面可能具有相似的上限。
- 然而,尽管 Sturgeon 报告称大多数肿瘤样本从活检提取 DNA 到实体预测大约需要 1.25 小时,MethyLYZR 仍保持在 1 小时限制内,更符合手术时间安排。
- 在比较分析中,MethyLYZR 在这种极短时间限制下评估时表现出比 Sturgeon 和 nanoDx 更高的准确性。
- 这一结果令人惊讶,因为朴素贝叶斯算法在特征独立性和简单性(方法)的反直觉假设下运行,而神经网络擅长建模特征之间的复杂交互和依赖关系。
- 然而,术中获得的数据的稀疏性和随机性可能会降低高度表达的人工智能系统的有效性。
- 此外,在此背景下,特设随机森林分类器面临挑战,因为它们需要针对每个稀疏数据集重新训练,导致更高的运行时间——对于 7,500 个 CpG 位点,nanoDx 需要超过 20 分钟,而 MethyLYZR 在同一系统上不到 1 分钟,这也更符合临床应用中的‘模型简约性’概念。
Para_04
- 模型简约性强调诊断模型的简单性、有效性、可处理性和透明性。
- 这一原则提倡使用最简单的且有效的可解释方法,同时承认传统相关分析已充分记录的局限性和后果。
- 这种方法并不否定使用先进的机器学习技术,而是建议在简单模型不足以解决问题的情况下应用这些技术。
- 展望未来,将异构信号(如DNA甲基化、突变特征、拷贝数变异、断裂点测定和肿瘤纯度)与其他模态(如患者特征、磁共振成像(MRI)和拉曼组织学)整合到非线性神经网络模型中将是分子神经病理学面临的下一个挑战。
- 利用像MethyLYZR这样的简单概率模型来补充和增强高级人工智能系统,有望在个性化诊断和治疗策略上取得重大进展,同时符合医疗护理中的透明性和可解释性要求。
Para_05
- 然而,实现这些技术的全部潜力面临着实际的障碍。
- 尽管迄今为止最全面的中枢神经系统肿瘤分类器是在超过10万个甲基化数组上进行训练的,但2018年发布的一个基础数据集仍然是本研究及其他研究中使用的唯一公开可用的综合资源,用于算法和临床模型的开发。
- 然而,最重要的限制是公开可用的、基于测序的DNA甲基化训练和测试数据的稀缺性。
- 数据的不足不仅限制了模型的开发,还限制了算法的验证和改进,无法充分利用人类基因组中所有3200万个CpG位点提供的更为丰富的信息。
Para_06
- 展望未来,术中诊断的出现对传统的医疗系统结构提出了挑战。
- 在不到1小时内实现中枢神经系统肿瘤的精确诊断标志着范式的转变,需要整合神经外科、神经病理学和神经肿瘤学的工作流程。
- 术中肿瘤分类系统的临床前开发不仅为比较不同切除策略和其他治疗方式的前瞻性临床试验开辟了途径,还要求个性化肿瘤学进行系统性变革,以适应高度集成、实时的现场诊断过程。
Data availability
Para_01
- 通过 Nanopore 或 PacBio 测序获得的测序数据已存储在欧洲基因组-表型档案库中(研究访问编号为 EGAS50000000559,Nanopore R9 数据集访问编号为 EGAD50000000832,Nanopore R10 数据集访问编号为 EGAD50000000791,PacBio 数据集访问编号为 EGAD50000000798)。
- 甲基化值以 feather 格式存储于 .5281/zenodo.13236096。
- 补充视频已存储于 .5281/zenodo.13324497。
- 之前发布的 450k 或 EPIC 数组用于分类器的训练和评估:脑部正常和癌症数据(GSE90496 和 GSE109379)、转移数据(GSE108576)以及肉瘤数据(GSE140686)。
- 用于纯度分析的 DNA 甲基化数据由 Djirackor 等人先前发表,并按照上述方法重新处理以用于本研究。
- 液体活检分析的 DNA 甲基化数据通过与原研究作者的个人沟通直接获取。
Code availability
Para_01
- 带有预训练模型和测试数据的 MethyLYZR 代码以及文档可在以下链接获取:。
本文标签: 从稀疏的表观基因组数据中快速分类脑肿瘤
版权声明:本文标题:从稀疏的表观基因组数据中快速分类脑肿瘤 内容由热心网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:http://it.en369.cn/jiaocheng/1748198279a2268009.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论