admin管理员组

文章数量:1033249

CRRG

层叠成像的复杂性和大量X光片的数量使得编写放射学报告变得复杂且效率低下。即使经验丰富的放射科医生在长时间高强度的作业下也难以保持对X光片的准确和一致解读。为了解决这些问题,本研究提出了一种端到端的模型——CRRG-CLIP模型(胸部X光报告生成及X光片分类模型),用于自动报告生成和X光片分类。 该模型包括两个模块:放射学报告生成模块和X光片分类模块。生成模块使用Faster R-CNN识别X光片中的解剖区域,使用二分类器选择关键区域,并利用GPT-2生成语义连贯的报告。 分类模块采用无监督的对比语言-图像预训练(CLIP)模型,解决高成本标注数据集和特征不足的挑战。结果表明,生成模块在BLEU、METEOR和ROUGE-L指标上与高性能 Baseline 模型表现相当,并在BLEU-2、BLEU-3、BLEU-4和ROUGE-L指标上优于GPT-4o模型。分类模块在AUC和准确率方面显著优于最先进模型。 这表明,所提出的模型在报告生成中实现了高准确性、可读性和流畅性,而与 未标注 的X光片-报告对的多模态对比训练则增强了分类性能。 代码可通过以下链接获取:

1. 引言

本研究旨在探讨人工智能在各个领域的应用及其对人类社会的影响。随着技术的飞速发展,人工智能逐渐从理论走向实践,并在诸如医疗、教育、交通等多个行业展现出巨大的潜力。本文将分析人工智能的发展历程、现有技术及其面临的挑战,并对未来发展趋势进行展望。

胸部X光片在临床疾病筛查和诊断中得到了广泛应用,这得益于其快速成像和高分辨率的优势[10]。然而,由于胸部X光片的成像特征复杂且使用频率高,即使是经验丰富的放射科专家在准确和一致地处理和解读大量复杂信息时也面临挑战[29]。研究表明,在胸部X光片上,有20%至50%的结节诊断被遗漏或误诊,且37%至60%的病例导致了严重的临床错误,即使在最有经验和声望的放射科专家中也是如此[42]。为了解决这些问题,研究行人探索了使用深度学习技术对胸部X光片进行分类的方法[19,27,47]。

近年来,放射学图像分类模型已从仅依赖放射学图像发展到结合放射学图像和报告以提高分类性能[5,21,11]。放射学图像提供了胸部组织结构的视觉特征,而放射学报告则提供了关于疾病和患者的丰富背景信息。然而,手动创建放射学报告需要大量的人力。从放射学图像自动生成放射学报告是解决这一挑战的有希望的方法。

放射学报告生成方法主要依赖于图像处理技术。它们通常通过从放射学图像中提取特征标签并将其与报告模板匹配来生成报告。相比之下,基于自然语言处理(NLP)的方法通过使用图像编码器提取全局特征[36,35],以及使用文本生成模型解码并生成文本[36,45,43],利用了多任务特性。虽然这些基于NLP的方法在关注全局特征方面提供了高内容完整性,但它们缺乏可解释性,且忽略了有价值的局部特征[30]。这种局限性可能会对下游分类模型的性能产生负面影响。

针对这些问题,本研究提出了胸部放射学报告生成和放射影像分类(CRRG-CLIP)模型,该模型能够自动生成放射学报告,并利用放射影像和生成的报告进行分类。

该模型包含两个模块:放射学报告生成模块和放射影像分类模块。放射学报告生成模块自动从放射影像中提取局部视觉特征,确定关键区域,并为每个关键区域生成描述性句子以创建个性化报告。这种方法使生成过程专注于局部有价值区域,从而提高了生成放射学报告的精确性、流畅性和可解释性。放射影像分类模块采用基于对比语言-图像预训练(CLIP)[27]的自监督学习方法。通过利用自监督学习,所提出的分类模块消除了对昂贵 Token 数据集的需求,提高了其可访问性、迁移性和泛化能力。总的来说,CRRG-CLIP模型不仅为放射科医生提供了有效的诊断支持,而且在疾病诊断方面具有巨大的潜力。

主要的研究贡献总结如下:

提出一种将图像处理技术与自然语言处理相结合的新型放射学报告生成方法。—基于CLIP开发一种基于 未标注 胸部X光片-报告数据集的、成本效益高、自监督的对比学习方法。—将放射学报告生成能力和X光片分类能力集成到端到端模型中,实现报告自动生成和X光片分类任务的自动化。

进行实验以证明生成的报告与放射科医生制作的职业报告极为相似,并在胸部X光片分类任务中与放射科医生的报告表现相当。

相关研究工作

Ren等人[28]引入了Faster R-CNN框架以加速目标检测,该框架将区域 Proposal 网络(RPN)与Fast R-CNN[7]相结合。Kisilev等人[16]将Faster R-CNN框架应用于X光片中的病变区域识别,并提出了对病变区域进行语义描述的方法。Ma等人[19]使用增强的Faster R-CNN来识别脊髓病变区域。用于特征提取的VGG被ResNet-50所取代,这增强了传统的Faster R-CNN模型。受Ma等人[19]的启发,本研究将使用增强的Faster R-CNN框架作为目标检测器。

报告生成 放射学报告生成的研究集中在编码器-解码器框架上,显示出从CNN-RNN神经网络模型到Transformer [30]的演变趋势。Ni等人[23]解决了由于词语和句子的重复导致的流畅性差的问题,并引入了一种跨模态检索方法到层次化的CNN-RNN模型中。Xiong等人[40]介绍了一种专门为生成放射学报告设计的层次化Transformer模型。Ziegelmayer等人[47]评估了多模态GPT-4生成放射学报告的能力。尽管取得了进展,但当前的报告生成方法往往难以理解X光片中的上下文,导致报告个性化程度低[17]。生成过程的透明度较低,结论的低可解释性在放射学家和模型之间产生了信任差距[39]。受[2,47]的启发,本研究利用GPT-2生成放射学报告。

放射影像分类 监督式放射影像分类模型严重依赖高成本的数据集和准确的标签[41],导致无法获得高收益。无监督的放射影像分类模型可以从大量低成本的无标签放射影像中学习丰富的特征,这是学者们广泛寻求的[38]。然而,无监督模型的可迁移性较差,且模型无法识别新的类别。Mikolov等人[20]提出了一种自监督模型,张等人[46]将其应用于放射影像领域并取得了良好效果。陈等人[4]发现,利用对比学习的自监督模型可以提高模型在胸部放射影像分类上的性能。

自监督学习也被应用于多模态学习。在放射学分类中,图像提供了关于组织和病变的结构和形状的详细视觉特征,而报告则包含了有价值的结论、症状和背景信息。Radford等人[27]引入了对比语言-图像预训练(CLIP),在超过30个不同的视觉分类任务中展示了卓越的性能。尽管放射学分类取得了进展,但在准确分类低质量放射学图像[25]以及有效地处理新发或罕见疾病方面仍存在挑战[15]。

3. 胸部放射学报告生成与影像分类模型

所提出的胸部放射学报告生成和影像分类模型(CRRG-CLIP)(见图1)包括两部分:放射学报告生成模块(RRG)和影像分类模块(R-CLIP)。RRG模块(见图2)由一个目标检测子模块、一个区域选择子模块和一个生成子模块组成。R-CLIP模块(见图3)包括一个CLIP主干网络,该网络包含图像编码器和文本编码器,以及一个下游线性分类器子模块。

3.1 影像学报告生成(RRG)模块

目标检测子模块 采用Faster R-CNN模型[28]进行目标检测,因为它可以准确检测29个解剖区域[31],并为每个区域获取边界坐标[22]。当将一张X光片输入到模块中时,首先使用在ImageNet[6]上预训练的ResNet-50[8]提取图像特征,并生成一个特征图。然后,一方面,通过RPN[28]在特征图上滑动一个窗口,RPN为多个候选区域生成边界坐标预测和目标分数。另一方面,ROI池化层将特征图调整为固定大小,这避免了后续分类器处理可变大小的复杂操作,提高了网络的处理效率。接下来,使用分类器对候选区域进行分类,以获得解剖区域标签和边界框坐标。最后,通过边界框回归[7]获得边界的偏移量,并将候选区域的边界坐标调整以改善目标周围的边界精度,从而获得最终的边界坐标。在分类29个解剖区域时,多类分类器的输出是每个解剖区域类别的概率分布。对于单个候选区域,对应最高概率分数的类别即为候选区域的类别。对于同一解剖区域的多个候选区域,对应最高概率分数的候选区域即为该类别的选择区域。

在解读X光片时,放射科医生根据其专业知识和经验选择有价值区域以给出诊断结论[43]。受此启发,采用监督二元分类器进行区域选择。区域选择分类器通过学习解剖区域是否有标注句子这一属性,来判断每个有价值区域是否需要生成句子。该分类器采用一个包含三个层(输入维度分别为1024、512和128)的全连接前馈神经网络。在每个全连接层之间应用ReLU激活函数。为了评估预测结果与实际标签之间的差异,采用了具有logits损失的二元交叉熵损失函数。

本工作采用经过微调的GPT-2 [1](healx/gpt2-pubmed-medium )模型,根据区域特征生成诊断句子。

3.2 放射学图像分类(R-CLIP)模块

在CLIP主干子模块中,图像编码器采用RestNet-50提取图像特征。文本编码器使用微调后的BioClinicalBERT模型(emilyalsentzer/Bio_ClinicalBERT4)来提取文本特征。通过线性投影将图像嵌入和文本嵌入各自投影到相同的大小,并使它们对齐到相同的嵌入空间。随后,采用包含多视角监督对比损失(MVS)、实例对比损失(ICL)和三元组对比损失(TCL)[44]的损失值来指导训练过程。这种方法使得在特征空间中相似图像-文本对更靠近,同时将不相似的图像-文本对推得更远[27]。

下游分类器子模块

下游分类器是一个简单的基于PyTorch的模块,包含一个单层全连接线性层,输入尺寸为224,输出尺寸为1。它对输入特征进行线性变换,生成目标类别的logits。对于二分类,外部应用了一个Sigmoid激活函数。

3.3 训练过程

模型训练过程分为两个阶段。初始阶段专注于训练放射学报告生成模块,而后续阶段涉及训练放射学影像分类模块。在放射学报告生成模块的训练过程中,首先训练目标检测子模块,以便模型能够识别放射影像中的29个关键解剖区域。然后训练区域选择子模块,以便模型能够确定生成报告时最有价值的边界框。最后,训练生成子模块,根据边界框中的图像特征生成报告。在放射学影像分类模块的训练过程中,首先训练CLIP Backbone 子模块,以便图像和文本编码器分别提取特征,并理解放射影像与报告之间的关系。最后一步是训练一个下游分类子模块,该模块可以对放射影像进行分类。

第四部分:实验

在本文的第四部分,作者详细介绍了所提出的AI模型的实验设置和结果。实验旨在验证模型的有效性和鲁棒性,并通过多个评估指标对模型性能进行量化分析。作者采用了一系列标准数据集和定制数据集进行实验,以全面测试模型在不同场景下的表现。

实验结果不仅展示了模型在解决特定任务上的优越性,还揭示了模型在不同参数设置和训练策略下的性能变化。

此外,作者还对实验结果进行了深入分析,讨论了模型的优势与局限性,并为未来的研究提供了有价值的参考。

4.1 数据集

为了进行实验,本研究使用了四个数据集:

MIMIC-CXR数据库[13]包含227,835份胸部放射学报告数据,这些报告以TXT格式存储,对应的放射学图像以DICOM格式存储。每份报告都包含多个部分。本研究仅关注“发现”部分,这部分代表了放射科医生的诊断结果。这样做有助于避免因隐私保护[34]而导致的低质量和不连贯的删除患者信息对其他部分的影响。在作者的工作中,提取了报告并用于训练多模态分类模型,而那些大且处理起来具有挑战性的DICOM格式放射学图像并未被使用。

Bio_ClinicalBERT - MIMIC-CXR-JPG数据库[12]源于MIMIC-CXR数据库。将DICOM格式的图像文件转换为JPG格式,将非结构化报告转换为结构化疾病标签。在作者的研究中,使用了JPG格式的X光片作为图像数据源。

胸影像基因组数据集[37]同样源自MIMIC-CXR数据集,并进行了更详细的标注。每张X光片包含标注为正常或异常组织的边界框。放射科医生用句子描述了每个边界框的显著特征,指出可能的疾病名称。每张X光片的最终诊断报告由这些句子生成。在作者的工作中,使用了数据集中的局部区域坐标来训练目标检测子模块,利用局部区域与诊断句子的对应关系来训练区域选择子模块,并将高价值局部区域用作报告生成子模块的输入,以生成诊断句子。

RSNA肺炎数据集[14]包含DICOM格式的胸部X光片、肺炎标签以及其他元数据。在研究中,该数据集被用于训练和评估下游线性分类子模块。

为了构建一个完整的用于训练和评估所提模型的训练数据集,作者使用了MIMIC-CXR数据库的报告、MIMICCXR-JPG数据库的X射线影像,以及来自胸影像基因组数据集的场景图JSON文件。通过匹配每个放射学报告中的受试者ID(subject_id)、研究ID(study_id)和图像ID(image_id)字段,实现了这些数据源之间的匹配。

4.2 预处理

放射学报告生成模块采用了胸部ImaGenome数据集的数据集划分规则。放射影像分类模块中的CLIP Backbone 子模块也使用了相同的划分方式。放射影像分类模块的下游分类子模块使用了来自RSNA肺炎数据集的数据,该数据集按照7:1.5:1.5的比例划分为训练集、验证集和测试集。由于GPU限制,实验在包含10,000张采样图像(占数据集的3.70%)及其相关报告的缩减数据集上完成,保持了相同的划分比例。

MIMIC-CXR数据集中的图像在长边调整为512像素,短边通过添加黑色填充达到512像素。对H通道应用了随机色彩抖动,增加了高斯噪声,进行了随机平移和旋转,并执行了归一化操作。对于RSNA肺炎数据集,每张图像均从中心随机裁剪至224像素,并随机改变了亮度(±10%)、对比度(±20%)、饱和度(±20%)和色调(±10%)。

报告中的“发现”部分在去除换行符后提取。为了数据增强,应用了反向翻译[34],使用赫尔辛基NLP的Marian机器翻译模型,将英语翻译成意大利语,然后再翻译回英语,以生成语义相似但表达不同的文本。

4.3 基准方法

对用于放射学报告生成的RRG模型和用于放射图像分类任务的R-CLIP模型进行了评估。每个模型都与各种 Baseline 模型进行了比较,包括高性能和商业模型,以及它们的变体。每个任务所比较的模型详情如下:

放射学报告生成·S&T [33]:一种高性能模型,使用CNN和LSTM构建用于标题生成的神经和概率框架。·ADAATT [18]:在文献中被广泛使用的性能优越的模型。该模型采用自适应注意力机制,使模型能够在训练过程中决定关注图像特征的哪些部分。● GPT-4o [24]:来自OpenAI的先进GPT-4o模型。该模型被视为一种商业模型,在众多实际应用中被使用。·RRG-base:仅使用完整数据集的1.35%提出的RRG模型,作为基准。在该模型中,忽略了具有和没有文本边界框的区域之间的不平衡,以及报告生成过程中的文本生成长度限制。·RRG-opt:使用完整数据集的3.70%进行优化的RRG模型。使用每份报告的平均 Token 数作为最大文本生成长度。对具有和没有文本边界框的区域分配了权重,确保模型公平地考虑这两种类型的区域。RRG-base和RRG-opt的超参数设置可在附录A(表3和表4)中找到。

放射学图像1分类·ConVIRT [45]:一种采用最先进模型的模型。对于该模型的图像编码器,既使用了默认的随机初始化权重,也使用了在ImageNet [6]上预训练的权重作为初始权重。 · R-CLIP-base:所提R-CLIP模型的 Baseline 版本。该模型使用由数据集中的放射科报告和胸部X光片组成的图像-文本对进行训练。 · R-CLIP-opt:所提R-CLIP模型的优化版本。它在图像-文本对上进行了训练,包括数据集中的X光片和由RRG模块生成的相应报告。详细的超参数和训练参数见附录A(表5和6)。

所有模型均在Google Colab T4 GPU上进行训练。

4.4 评估指标

生成的报告通过BLEU-1(用于一致性和准确性)、BLEU-2、BLEU-3和BLEU-4(用于可读性和流畅性[26])、METEOR(用于与基准真实值的语义一致性)、ROUGE-L(用于语义一致性[3])、CIDEr(用于生成文本与参考文本的重叠度)、以及TF-IDF[9](用于文本间的相似性[32])进行了评估。同时,准确率和AUC被用来评估分类模型。

5. 结果

5.1 报告生成结果

该提出的报告生成方法在优化后与 Baseline 模型相比,性能显著提升。优化后的报告生成模块的性能与S&T和ADAATT模型相当,在流畅度和可读性方面超越了GPT-4o,自动生成的报告与放射科医生的报告相似度很高。请参考图4查看结果示例,表1则提供了详细的实验结果。

与RRG-base的比较 Baseline 模型RRG-base是使用1.35%的数据集进行训练的。通过微调 Baseline 模型并将训练数据增加到数据集的3.7%,该模型在所有七个指标上的性能都得到了提升。从表1的实验结果来看,BLEU-1得分提高了7.59%,BLEU-2得分提高了7.53%,BLEU-3得分提高了6.93%,BLEU-4得分提高了8.33%,METEOR得分提高了4.81%,ROUGE-L得分提高了0.84%,CIDEr得分提高了19.58%,平均提升达到了7.95%。

与高性能模型的比较 由于受GPU硬件设备的限制,本实验中使用的数据量较小,仅为完整数据集的3.7%,但训练出的模型性能接近于使用完整数据集训练的前期高性能模型,即S&T和ADAATT(见表1),这证明了模型在小样本情况下也具有强大的性能,且在实验条件充分的情况下,模型可以达到更好的效果。

从表1可以看出,与S&T模型相比,本研究中的模型在BLEU-1评分上降低了24.07%,BLEU-2评分降低了17.20%,BLEU-3评分降低了12.04%,BLEU-4评分降低了7.69%,METEOR评分降低了13.76%,ROUGE-L评分降低了10.04%,平均降低了14.13%。与ADAATT模型相比,本研究中的模型在BLEU-1评分上降低了24.07%,BLEU-2评分降低了17.83%,BLEU-3评分降低了14.82%,BLEU-4评分降低了18.82%,METEOR评分降低了8.26%,ROUGE-L评分降低了11.30%,平均降低了14.85%。在与SgT模型和ADAATT模型的比较中,BLEU-1和BLEU-2评分的降低率高于各自的平均降低率(14.13%和14.85%),而BLEU-3、BLEU-4、METEOR和ROUGE-L评分的降低率低于各自的平均降低率。

与开源的GPT-2相比,GPT-4o采用了更多的层(从48层增加到120层),参数量也达到了100万亿(相比之前的15亿),并且改进了注意力机制,这使得它在处理长文本和复杂语义方面的性能得到了提升。得益于商业公司的大量数据和并行训练的强大GPU,模型的效果得到了进一步的提升。然而,在七个评估维度中的两个维度上,仅BLEU-1和METEOR的评分略低于GPT-4o,这表明生成的报告在可读性和流畅性方面优于GPT-4o,但在词汇准确性方面略逊于GPT-4o约11.72%,同时在文本同义词替换和词语派生等语义效果方面存在差距。鉴于该模型是在有限的语料库上训练的,并且受限于开源大语言模型架构的缺失,这样的性能已经非常出色。

5.2F X光片分类结果

从表1可以看出,使用放射科医生报告的R-CLIP-base和利用生成模块生成的报告的R-CLIP-opt在性能上相似。这表明所提出的报告生成方法能够生成与人类所写报告相当的报告。此外,所提出的分类方法优于ConVIRT。这表明其在性能上优于当前最先进的高性能模型。

参考

[1]. CRRG-CLIP: Automatic Generation of Chest Radiology Reports and Classification of Chest Radiographs .

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。原始发表:2025-03-31,如有侵权请联系 cloudcommunity@tencent 删除框架模型数据性能高性能

CRRG

层叠成像的复杂性和大量X光片的数量使得编写放射学报告变得复杂且效率低下。即使经验丰富的放射科医生在长时间高强度的作业下也难以保持对X光片的准确和一致解读。为了解决这些问题,本研究提出了一种端到端的模型——CRRG-CLIP模型(胸部X光报告生成及X光片分类模型),用于自动报告生成和X光片分类。 该模型包括两个模块:放射学报告生成模块和X光片分类模块。生成模块使用Faster R-CNN识别X光片中的解剖区域,使用二分类器选择关键区域,并利用GPT-2生成语义连贯的报告。 分类模块采用无监督的对比语言-图像预训练(CLIP)模型,解决高成本标注数据集和特征不足的挑战。结果表明,生成模块在BLEU、METEOR和ROUGE-L指标上与高性能 Baseline 模型表现相当,并在BLEU-2、BLEU-3、BLEU-4和ROUGE-L指标上优于GPT-4o模型。分类模块在AUC和准确率方面显著优于最先进模型。 这表明,所提出的模型在报告生成中实现了高准确性、可读性和流畅性,而与 未标注 的X光片-报告对的多模态对比训练则增强了分类性能。 代码可通过以下链接获取:

1. 引言

本研究旨在探讨人工智能在各个领域的应用及其对人类社会的影响。随着技术的飞速发展,人工智能逐渐从理论走向实践,并在诸如医疗、教育、交通等多个行业展现出巨大的潜力。本文将分析人工智能的发展历程、现有技术及其面临的挑战,并对未来发展趋势进行展望。

胸部X光片在临床疾病筛查和诊断中得到了广泛应用,这得益于其快速成像和高分辨率的优势[10]。然而,由于胸部X光片的成像特征复杂且使用频率高,即使是经验丰富的放射科专家在准确和一致地处理和解读大量复杂信息时也面临挑战[29]。研究表明,在胸部X光片上,有20%至50%的结节诊断被遗漏或误诊,且37%至60%的病例导致了严重的临床错误,即使在最有经验和声望的放射科专家中也是如此[42]。为了解决这些问题,研究行人探索了使用深度学习技术对胸部X光片进行分类的方法[19,27,47]。

近年来,放射学图像分类模型已从仅依赖放射学图像发展到结合放射学图像和报告以提高分类性能[5,21,11]。放射学图像提供了胸部组织结构的视觉特征,而放射学报告则提供了关于疾病和患者的丰富背景信息。然而,手动创建放射学报告需要大量的人力。从放射学图像自动生成放射学报告是解决这一挑战的有希望的方法。

放射学报告生成方法主要依赖于图像处理技术。它们通常通过从放射学图像中提取特征标签并将其与报告模板匹配来生成报告。相比之下,基于自然语言处理(NLP)的方法通过使用图像编码器提取全局特征[36,35],以及使用文本生成模型解码并生成文本[36,45,43],利用了多任务特性。虽然这些基于NLP的方法在关注全局特征方面提供了高内容完整性,但它们缺乏可解释性,且忽略了有价值的局部特征[30]。这种局限性可能会对下游分类模型的性能产生负面影响。

针对这些问题,本研究提出了胸部放射学报告生成和放射影像分类(CRRG-CLIP)模型,该模型能够自动生成放射学报告,并利用放射影像和生成的报告进行分类。

该模型包含两个模块:放射学报告生成模块和放射影像分类模块。放射学报告生成模块自动从放射影像中提取局部视觉特征,确定关键区域,并为每个关键区域生成描述性句子以创建个性化报告。这种方法使生成过程专注于局部有价值区域,从而提高了生成放射学报告的精确性、流畅性和可解释性。放射影像分类模块采用基于对比语言-图像预训练(CLIP)[27]的自监督学习方法。通过利用自监督学习,所提出的分类模块消除了对昂贵 Token 数据集的需求,提高了其可访问性、迁移性和泛化能力。总的来说,CRRG-CLIP模型不仅为放射科医生提供了有效的诊断支持,而且在疾病诊断方面具有巨大的潜力。

主要的研究贡献总结如下:

提出一种将图像处理技术与自然语言处理相结合的新型放射学报告生成方法。—基于CLIP开发一种基于 未标注 胸部X光片-报告数据集的、成本效益高、自监督的对比学习方法。—将放射学报告生成能力和X光片分类能力集成到端到端模型中,实现报告自动生成和X光片分类任务的自动化。

进行实验以证明生成的报告与放射科医生制作的职业报告极为相似,并在胸部X光片分类任务中与放射科医生的报告表现相当。

相关研究工作

Ren等人[28]引入了Faster R-CNN框架以加速目标检测,该框架将区域 Proposal 网络(RPN)与Fast R-CNN[7]相结合。Kisilev等人[16]将Faster R-CNN框架应用于X光片中的病变区域识别,并提出了对病变区域进行语义描述的方法。Ma等人[19]使用增强的Faster R-CNN来识别脊髓病变区域。用于特征提取的VGG被ResNet-50所取代,这增强了传统的Faster R-CNN模型。受Ma等人[19]的启发,本研究将使用增强的Faster R-CNN框架作为目标检测器。

报告生成 放射学报告生成的研究集中在编码器-解码器框架上,显示出从CNN-RNN神经网络模型到Transformer [30]的演变趋势。Ni等人[23]解决了由于词语和句子的重复导致的流畅性差的问题,并引入了一种跨模态检索方法到层次化的CNN-RNN模型中。Xiong等人[40]介绍了一种专门为生成放射学报告设计的层次化Transformer模型。Ziegelmayer等人[47]评估了多模态GPT-4生成放射学报告的能力。尽管取得了进展,但当前的报告生成方法往往难以理解X光片中的上下文,导致报告个性化程度低[17]。生成过程的透明度较低,结论的低可解释性在放射学家和模型之间产生了信任差距[39]。受[2,47]的启发,本研究利用GPT-2生成放射学报告。

放射影像分类 监督式放射影像分类模型严重依赖高成本的数据集和准确的标签[41],导致无法获得高收益。无监督的放射影像分类模型可以从大量低成本的无标签放射影像中学习丰富的特征,这是学者们广泛寻求的[38]。然而,无监督模型的可迁移性较差,且模型无法识别新的类别。Mikolov等人[20]提出了一种自监督模型,张等人[46]将其应用于放射影像领域并取得了良好效果。陈等人[4]发现,利用对比学习的自监督模型可以提高模型在胸部放射影像分类上的性能。

自监督学习也被应用于多模态学习。在放射学分类中,图像提供了关于组织和病变的结构和形状的详细视觉特征,而报告则包含了有价值的结论、症状和背景信息。Radford等人[27]引入了对比语言-图像预训练(CLIP),在超过30个不同的视觉分类任务中展示了卓越的性能。尽管放射学分类取得了进展,但在准确分类低质量放射学图像[25]以及有效地处理新发或罕见疾病方面仍存在挑战[15]。

3. 胸部放射学报告生成与影像分类模型

所提出的胸部放射学报告生成和影像分类模型(CRRG-CLIP)(见图1)包括两部分:放射学报告生成模块(RRG)和影像分类模块(R-CLIP)。RRG模块(见图2)由一个目标检测子模块、一个区域选择子模块和一个生成子模块组成。R-CLIP模块(见图3)包括一个CLIP主干网络,该网络包含图像编码器和文本编码器,以及一个下游线性分类器子模块。

3.1 影像学报告生成(RRG)模块

目标检测子模块 采用Faster R-CNN模型[28]进行目标检测,因为它可以准确检测29个解剖区域[31],并为每个区域获取边界坐标[22]。当将一张X光片输入到模块中时,首先使用在ImageNet[6]上预训练的ResNet-50[8]提取图像特征,并生成一个特征图。然后,一方面,通过RPN[28]在特征图上滑动一个窗口,RPN为多个候选区域生成边界坐标预测和目标分数。另一方面,ROI池化层将特征图调整为固定大小,这避免了后续分类器处理可变大小的复杂操作,提高了网络的处理效率。接下来,使用分类器对候选区域进行分类,以获得解剖区域标签和边界框坐标。最后,通过边界框回归[7]获得边界的偏移量,并将候选区域的边界坐标调整以改善目标周围的边界精度,从而获得最终的边界坐标。在分类29个解剖区域时,多类分类器的输出是每个解剖区域类别的概率分布。对于单个候选区域,对应最高概率分数的类别即为候选区域的类别。对于同一解剖区域的多个候选区域,对应最高概率分数的候选区域即为该类别的选择区域。

在解读X光片时,放射科医生根据其专业知识和经验选择有价值区域以给出诊断结论[43]。受此启发,采用监督二元分类器进行区域选择。区域选择分类器通过学习解剖区域是否有标注句子这一属性,来判断每个有价值区域是否需要生成句子。该分类器采用一个包含三个层(输入维度分别为1024、512和128)的全连接前馈神经网络。在每个全连接层之间应用ReLU激活函数。为了评估预测结果与实际标签之间的差异,采用了具有logits损失的二元交叉熵损失函数。

本工作采用经过微调的GPT-2 [1](healx/gpt2-pubmed-medium )模型,根据区域特征生成诊断句子。

3.2 放射学图像分类(R-CLIP)模块

在CLIP主干子模块中,图像编码器采用RestNet-50提取图像特征。文本编码器使用微调后的BioClinicalBERT模型(emilyalsentzer/Bio_ClinicalBERT4)来提取文本特征。通过线性投影将图像嵌入和文本嵌入各自投影到相同的大小,并使它们对齐到相同的嵌入空间。随后,采用包含多视角监督对比损失(MVS)、实例对比损失(ICL)和三元组对比损失(TCL)[44]的损失值来指导训练过程。这种方法使得在特征空间中相似图像-文本对更靠近,同时将不相似的图像-文本对推得更远[27]。

下游分类器子模块

下游分类器是一个简单的基于PyTorch的模块,包含一个单层全连接线性层,输入尺寸为224,输出尺寸为1。它对输入特征进行线性变换,生成目标类别的logits。对于二分类,外部应用了一个Sigmoid激活函数。

3.3 训练过程

模型训练过程分为两个阶段。初始阶段专注于训练放射学报告生成模块,而后续阶段涉及训练放射学影像分类模块。在放射学报告生成模块的训练过程中,首先训练目标检测子模块,以便模型能够识别放射影像中的29个关键解剖区域。然后训练区域选择子模块,以便模型能够确定生成报告时最有价值的边界框。最后,训练生成子模块,根据边界框中的图像特征生成报告。在放射学影像分类模块的训练过程中,首先训练CLIP Backbone 子模块,以便图像和文本编码器分别提取特征,并理解放射影像与报告之间的关系。最后一步是训练一个下游分类子模块,该模块可以对放射影像进行分类。

第四部分:实验

在本文的第四部分,作者详细介绍了所提出的AI模型的实验设置和结果。实验旨在验证模型的有效性和鲁棒性,并通过多个评估指标对模型性能进行量化分析。作者采用了一系列标准数据集和定制数据集进行实验,以全面测试模型在不同场景下的表现。

实验结果不仅展示了模型在解决特定任务上的优越性,还揭示了模型在不同参数设置和训练策略下的性能变化。

此外,作者还对实验结果进行了深入分析,讨论了模型的优势与局限性,并为未来的研究提供了有价值的参考。

4.1 数据集

为了进行实验,本研究使用了四个数据集:

MIMIC-CXR数据库[13]包含227,835份胸部放射学报告数据,这些报告以TXT格式存储,对应的放射学图像以DICOM格式存储。每份报告都包含多个部分。本研究仅关注“发现”部分,这部分代表了放射科医生的诊断结果。这样做有助于避免因隐私保护[34]而导致的低质量和不连贯的删除患者信息对其他部分的影响。在作者的工作中,提取了报告并用于训练多模态分类模型,而那些大且处理起来具有挑战性的DICOM格式放射学图像并未被使用。

Bio_ClinicalBERT - MIMIC-CXR-JPG数据库[12]源于MIMIC-CXR数据库。将DICOM格式的图像文件转换为JPG格式,将非结构化报告转换为结构化疾病标签。在作者的研究中,使用了JPG格式的X光片作为图像数据源。

胸影像基因组数据集[37]同样源自MIMIC-CXR数据集,并进行了更详细的标注。每张X光片包含标注为正常或异常组织的边界框。放射科医生用句子描述了每个边界框的显著特征,指出可能的疾病名称。每张X光片的最终诊断报告由这些句子生成。在作者的工作中,使用了数据集中的局部区域坐标来训练目标检测子模块,利用局部区域与诊断句子的对应关系来训练区域选择子模块,并将高价值局部区域用作报告生成子模块的输入,以生成诊断句子。

RSNA肺炎数据集[14]包含DICOM格式的胸部X光片、肺炎标签以及其他元数据。在研究中,该数据集被用于训练和评估下游线性分类子模块。

为了构建一个完整的用于训练和评估所提模型的训练数据集,作者使用了MIMIC-CXR数据库的报告、MIMICCXR-JPG数据库的X射线影像,以及来自胸影像基因组数据集的场景图JSON文件。通过匹配每个放射学报告中的受试者ID(subject_id)、研究ID(study_id)和图像ID(image_id)字段,实现了这些数据源之间的匹配。

4.2 预处理

放射学报告生成模块采用了胸部ImaGenome数据集的数据集划分规则。放射影像分类模块中的CLIP Backbone 子模块也使用了相同的划分方式。放射影像分类模块的下游分类子模块使用了来自RSNA肺炎数据集的数据,该数据集按照7:1.5:1.5的比例划分为训练集、验证集和测试集。由于GPU限制,实验在包含10,000张采样图像(占数据集的3.70%)及其相关报告的缩减数据集上完成,保持了相同的划分比例。

MIMIC-CXR数据集中的图像在长边调整为512像素,短边通过添加黑色填充达到512像素。对H通道应用了随机色彩抖动,增加了高斯噪声,进行了随机平移和旋转,并执行了归一化操作。对于RSNA肺炎数据集,每张图像均从中心随机裁剪至224像素,并随机改变了亮度(±10%)、对比度(±20%)、饱和度(±20%)和色调(±10%)。

报告中的“发现”部分在去除换行符后提取。为了数据增强,应用了反向翻译[34],使用赫尔辛基NLP的Marian机器翻译模型,将英语翻译成意大利语,然后再翻译回英语,以生成语义相似但表达不同的文本。

4.3 基准方法

对用于放射学报告生成的RRG模型和用于放射图像分类任务的R-CLIP模型进行了评估。每个模型都与各种 Baseline 模型进行了比较,包括高性能和商业模型,以及它们的变体。每个任务所比较的模型详情如下:

放射学报告生成·S&T [33]:一种高性能模型,使用CNN和LSTM构建用于标题生成的神经和概率框架。·ADAATT [18]:在文献中被广泛使用的性能优越的模型。该模型采用自适应注意力机制,使模型能够在训练过程中决定关注图像特征的哪些部分。● GPT-4o [24]:来自OpenAI的先进GPT-4o模型。该模型被视为一种商业模型,在众多实际应用中被使用。·RRG-base:仅使用完整数据集的1.35%提出的RRG模型,作为基准。在该模型中,忽略了具有和没有文本边界框的区域之间的不平衡,以及报告生成过程中的文本生成长度限制。·RRG-opt:使用完整数据集的3.70%进行优化的RRG模型。使用每份报告的平均 Token 数作为最大文本生成长度。对具有和没有文本边界框的区域分配了权重,确保模型公平地考虑这两种类型的区域。RRG-base和RRG-opt的超参数设置可在附录A(表3和表4)中找到。

放射学图像1分类·ConVIRT [45]:一种采用最先进模型的模型。对于该模型的图像编码器,既使用了默认的随机初始化权重,也使用了在ImageNet [6]上预训练的权重作为初始权重。 · R-CLIP-base:所提R-CLIP模型的 Baseline 版本。该模型使用由数据集中的放射科报告和胸部X光片组成的图像-文本对进行训练。 · R-CLIP-opt:所提R-CLIP模型的优化版本。它在图像-文本对上进行了训练,包括数据集中的X光片和由RRG模块生成的相应报告。详细的超参数和训练参数见附录A(表5和6)。

所有模型均在Google Colab T4 GPU上进行训练。

4.4 评估指标

生成的报告通过BLEU-1(用于一致性和准确性)、BLEU-2、BLEU-3和BLEU-4(用于可读性和流畅性[26])、METEOR(用于与基准真实值的语义一致性)、ROUGE-L(用于语义一致性[3])、CIDEr(用于生成文本与参考文本的重叠度)、以及TF-IDF[9](用于文本间的相似性[32])进行了评估。同时,准确率和AUC被用来评估分类模型。

5. 结果

5.1 报告生成结果

该提出的报告生成方法在优化后与 Baseline 模型相比,性能显著提升。优化后的报告生成模块的性能与S&T和ADAATT模型相当,在流畅度和可读性方面超越了GPT-4o,自动生成的报告与放射科医生的报告相似度很高。请参考图4查看结果示例,表1则提供了详细的实验结果。

与RRG-base的比较 Baseline 模型RRG-base是使用1.35%的数据集进行训练的。通过微调 Baseline 模型并将训练数据增加到数据集的3.7%,该模型在所有七个指标上的性能都得到了提升。从表1的实验结果来看,BLEU-1得分提高了7.59%,BLEU-2得分提高了7.53%,BLEU-3得分提高了6.93%,BLEU-4得分提高了8.33%,METEOR得分提高了4.81%,ROUGE-L得分提高了0.84%,CIDEr得分提高了19.58%,平均提升达到了7.95%。

与高性能模型的比较 由于受GPU硬件设备的限制,本实验中使用的数据量较小,仅为完整数据集的3.7%,但训练出的模型性能接近于使用完整数据集训练的前期高性能模型,即S&T和ADAATT(见表1),这证明了模型在小样本情况下也具有强大的性能,且在实验条件充分的情况下,模型可以达到更好的效果。

从表1可以看出,与S&T模型相比,本研究中的模型在BLEU-1评分上降低了24.07%,BLEU-2评分降低了17.20%,BLEU-3评分降低了12.04%,BLEU-4评分降低了7.69%,METEOR评分降低了13.76%,ROUGE-L评分降低了10.04%,平均降低了14.13%。与ADAATT模型相比,本研究中的模型在BLEU-1评分上降低了24.07%,BLEU-2评分降低了17.83%,BLEU-3评分降低了14.82%,BLEU-4评分降低了18.82%,METEOR评分降低了8.26%,ROUGE-L评分降低了11.30%,平均降低了14.85%。在与SgT模型和ADAATT模型的比较中,BLEU-1和BLEU-2评分的降低率高于各自的平均降低率(14.13%和14.85%),而BLEU-3、BLEU-4、METEOR和ROUGE-L评分的降低率低于各自的平均降低率。

与开源的GPT-2相比,GPT-4o采用了更多的层(从48层增加到120层),参数量也达到了100万亿(相比之前的15亿),并且改进了注意力机制,这使得它在处理长文本和复杂语义方面的性能得到了提升。得益于商业公司的大量数据和并行训练的强大GPU,模型的效果得到了进一步的提升。然而,在七个评估维度中的两个维度上,仅BLEU-1和METEOR的评分略低于GPT-4o,这表明生成的报告在可读性和流畅性方面优于GPT-4o,但在词汇准确性方面略逊于GPT-4o约11.72%,同时在文本同义词替换和词语派生等语义效果方面存在差距。鉴于该模型是在有限的语料库上训练的,并且受限于开源大语言模型架构的缺失,这样的性能已经非常出色。

5.2F X光片分类结果

从表1可以看出,使用放射科医生报告的R-CLIP-base和利用生成模块生成的报告的R-CLIP-opt在性能上相似。这表明所提出的报告生成方法能够生成与人类所写报告相当的报告。此外,所提出的分类方法优于ConVIRT。这表明其在性能上优于当前最先进的高性能模型。

参考

[1]. CRRG-CLIP: Automatic Generation of Chest Radiology Reports and Classification of Chest Radiographs .

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。原始发表:2025-03-31,如有侵权请联系 cloudcommunity@tencent 删除框架模型数据性能高性能

本文标签: CRRG