18101298214
发布日期:2023/8/14 16:39:00

2023年7月24日,荷兰癌症研究所/拉德堡德大学/澳门理工大学Ritse Mann/檀韬团队在Cell Press细胞出版社期刊Cell Reports Medicine(中国科学院一区,TOP,IF:14.3)上发表了题为“RadioLOGIC, a healthcare model for processing electronic health records and decision-making in breast disease”的文章。该研究提出了一种大语言模型,用于从非结构化的EHRs中自动地提取有价值的特征信息,并通过迁移学习来评估患者健康特征并预测病理结果,为临床医生提供决策支持。该研究揭示了基于人工智能的语言模型EHRs进行临床诊断的前景。

 

研究背景介绍

电子健康记录(EHR)大多以自由文本格式存储。这些数据无法直接用于计算机分析,其潜力仍有待开发[1]。对于医生来说,从自由文本中手动提取潜在信息既昂贵、繁琐又耗时。因此,迫切需要一种技术来有效帮助研究人员从非结构化文本中准确提取高质量特征,同时理解报告内容,为医生提供决策支持。近年来,随着人工智能的不断发展,自然语言处理(NLP,Natural Language Processing)技术已成为解读自由文本的工具。多项研究表明,NLP 模型可以从医疗报告中提取信息,甚至做出决策。然而,以往的NLP模型大多基于卷积神经网络(CNN)或循环神经网络(RNN),这些方法可能无法很好地学习相距较远的单词之间的关系,导致较长的文本解析变得困难[2, 3, 4]。近年来,基于变压器的变压器双向编码器表示法(BERT)受到越来越多的关注[5]。然而,BERT 需要大量数据进行预训练,而且公开的预训练模型无法应用于特定领域,如医疗相关任务。此外,对于长而复杂的文本,模型的性能仍有待提高。

 

结果分析与阐述

 

乳腺癌是女性最常见的癌症,也是女性癌症死亡的主要原因[6]。近年来,基于人工智能的乳腺癌研究受到越来越多的关注,尤其是在放射学和病理学领域[7]。用于诊断、患者护理和肿瘤研究的数字健康数据继续呈指数级增长。然而,大多数医疗信息,尤其是放射学结果,都是以自由文本格式存储的,这些数据的潜力尚未得到开发。根据目前从非结构化数据中提取定量数据的术语,如放射组学、病理组学等,作者提出了从电子病历中提取定量数据的术语“repomics”(报告omics)。有价值的特征,如病人的健康状况和病变的相关特征。在这项研究中,开发了RadioLOGIC(RadioLogical repOmics driven model incorporatedG medIcal token Cognition)来理解非结构化放射学报告,提取有价值的报告组学特征并预测临床诊断。

 

1.NLP模型预训练

 

应用掩码语言建模来使模型理解放射学报告的内容。图1a和b显示了预训练的NLP模型的基本框架。图1c展示了预训练的学习过程,首先基于所有收集到的乳腺医学相关语料库对模型进行预训练,然后模型针对放射学报告主领域语料库进行强化连续预训练,最后该模型针对下游任务进行了微调。图1d演示了在无监督预训练中预测屏蔽词的过程。图2显示了单词和句子可视化结果,表明预训练模型学习了放射学报告中单词之间的相关性。

 

2.报告组学特征提取

 

经过预训练-微调后,研究人员在一个独立的测试集上测试了不同的模型。第一项任务是提取repomics 特征。为了帮助模型在分类过程中理解报告中每个单词的属性,笔者自动为每个单词标记(token)贴上属性标签(图3a),并根据解码器预测每个标记的属性,形成最终模型RadioLOGIC(图3b)。如表1所示,在加入医学标记识别后,我们模型的性能得到了显著和大幅度的提高,平均准确率为0.934[0.920, 0. 948],平均F1-Micro为0.937[0.922, 0.949],平均F1-Macro为0.868[0.842, 0.892],平均F1加权为0.934[0.919,0.948](CNN-ATT/RNN-ATT/RadioBERT/RadioBERTw vs RadioLOGIC,所有p值均小于0.001)。

 

表 1. 不同的NLP模型在独立测试集上进行特征提取任务的结果

_

Accuracy

F1 score-Micro

F1 score-Macro

F1 score-weighted

CNN-ATT

0.797 [0.771, 0.820]

0.772 [0.743, 0.800]

0.623 [0.585, 0.664]

0.758 [0.728, 0.786]

RNN-ATT

0.841 [0.820, 0.862]

0.823 [0.795, 0.848]

0.662 [0.623, 0.704]

0.802 [0.773, 0.830]

RadioBERT

0.913 [0.897, 0.928]

0.914 [0.897, 0.929]

0.821 [0.787, 0.851]

0.910 [0.893, 0.927] 

RadioBERTw

0.915 [0.899, 0.930]

0.920 [0.904, 0.935]

0.830 [0.799, 0.862]

0.917 [0.900, 0.933]

RadioLOGIC

0.934 [0.920, 0.948]

0.937 [0.922, 0.949]

0.868 [0.842, 0.892]

0.934 [0.919, 0.948]

Note: Values in brackets are 95% confidence intervals. CNN, convolutional neural networks. RNN, recurrent neural networks. ATT, Attention mechanism. BERT, bidirectional encoder representations from transformers. RadioBERT, original Radiology BERT. RadioBERTw, original RadioBERT with weighted loss. RadioLOGIC, RadioLogical repOmics driven model incorporatinG medIcal token Cognition.

3. 预测BI-RADS分级

 

在这项任务中,掩盖了报告中已有的BI-RADS(乳腺成像报告和数据系统)评分,并将其用作预测标签,然后使用RadioLOGIC来预测BI-RADS评分。图4a和b显示了预测独立测试队列中BI-RADS分数的混淆矩阵。结果表明,RadioLOGIC模型可以预测BI-RADS评分,准确度为0.850[0.832,0.869],F1加权评分为0.838[0.817,0.859]。迁移学习提高了模型的性能,准确度为0.906[0.890, 0.921] (p<0.001),F1加权得分为0.903[0.887, 0.919] (p<0.001)。

文章结论与讨论,启发与展望

 

本研究中开发的NLP模型RadioLOGIC在从电子病历中提取再组学特征方面显示出巨大的潜力。RadioLOGIC还能直接从放射学报告的描述中预测BI-RADS评分和病理结果,为临床医生提供决策支持,从而有利于患者护理。这项研究也有一些局限性。例如,用于模型训练的唯一语言是荷兰语。本项目的目标是建立一个多语言NLP模型,处理各种语言的非结构化放射学报告中与放射学相关的问题。未来的进一步研究将结合多语种电子病历,以加强所提出的模型。此外,基于再组学特征预测癌症亚型的进一步研究可能有助于通过再组学特征的可视化,以更精确、更详细的方式提供放射学与病理学的一致性。

 

荷兰癌症研究所/马斯特里赫特大学/拉德堡德大学的张天宇博士为论文的第一作者,檀韬博士为论文通讯作者。该项研究由广州菁英计划项目、国家留学基金委、澳门理工大学基金支持。

 

参考文献:

[1] Sorin, V., Barash, Y., Konen, E., and Klang, E. (2020). Deep-learning natural language processing for oncological applications. The Lancet Oncology 21, 1553-1556.

 

[2] Bustos, A., Pertusa, A., Salinas, J.-M., and de la Iglesia-Vayá, M. (2020). Padchest: A large chest x-ray image dataset with multi-label annotated reports. Medical image analysis 66, 101797.

 

[3] Rasmy, L., Nigo, M., Kannadath, B.S., Xie, Z., Mao, B., Patel, K., Zhou, Y., Zhang, W., Ross, A., and Xu, H. (2022). Recurrent neural network models (CovRNN) for predicting outcomes of patients with COVID-19 on admission to hospital: model development and validation using electronic health record data. The Lancet Digital Health.

上一篇:仿蜻蜓扑翼式磁-机-电耦合微能量采集新方法 下一篇:揭示重塑肿瘤细胞的代谢和增殖的关键因子
已经到最底了
服务支持
新闻资讯
关于我们
微信扫一扫