【学术分享】临床洞察:医疗大模型的全面总结、应用及挑战
本文详细探讨了大型语言模型在医疗领域的进展和应用,特别强调临床应用。本研究追溯了LLMs从其基础技术到最新领域特定模型和多模态集成的发展。它探讨了从需要微调的基于编码器的模型到集成文本、视觉和听觉数据的复杂方法的技术进步,从而促进医疗领域全面的AI解决方案。本文讨论了这些技术在提高临床效率方面提供的机会以及在伦理、数据隐私和实施方面提出的挑战。此外,它批判性地评估了LLMs的部署策略,强调开源模型
_https://arxiv.org/html/2408.11735v1
_
摘要
–
本文详细探讨了大型语言模型在医疗领域的进展和应用,特别强调临床应用。本研究追溯了LLMs从其基础技术到最新领域特定模型和多模态集成的发展。它探讨了从需要微调的基于编码器的模型到集成文本、视觉和听觉数据的复杂方法的技术进步,从而促进医疗领域全面的AI解决方案。本文讨论了这些技术在提高临床效率方面提供的机会以及在伦理、数据隐私和实施方面提出的挑战。此外,它批判性地评估了LLMs的部署策略,强调开源模型在确保数据隐私和适应医疗环境中的必要性。提出了未来的研究方向,重点是通过实证研究评估LLMs在医疗中的现实效能以及开发开放数据集以便进一步研究。本综述旨在为对AI与医疗交叉领域感兴趣的新手和多学科研究人员提供全面的资源。
简介
–
近年来人工智能(AI)的发展为各个行业带来了无数机遇,包括医疗保健。AI的潜在影响是一个备受争议的话题,涉及其对人类的影响。领先的AI专家呼吁保持谨慎,表现在一封公开信中,敦促暂停扩展先进AI模型,这反映出政策制定者和公众对AI的伦理、社会和经济影响的日益关注。虽然一些人认为AI可以在许多领域带来显著的效率和有效性提升,但另一些人则担心它可能加剧不平等、取代工作岗位并挑战社会规范。尽管AI在医疗领域有着广泛的研究历史,但像GPT系列、Gemini以及一系列开放模型如Llama的先进语言和多模态模型的出现,为医疗行业的变革提供了前所未有的视角。
本综述论文综合并批判性地审视了医疗领域大型语言模型(LLM)的现状,重点关注它们的临床应用。许多现有的综述论文涵盖了医疗中的LLM。标题为“医学中的预训练语言模型:一项调查”的论文提供了广泛的应用概述,但由于涵盖主题的范围较广,对新手来说可能具有挑战性。同样,“生物医学领域的预训练语言模型:一项系统调查”深入探讨了LLM在生物医学中的文本应用。然而,其广泛的覆盖面,包括超出临床子领域的应用,以及文章复杂的结构限制了其对新手或多学科研究者的适用性。最后,“医学中的大型语言模型:当前潜力和发展机会”突出了GPT-3.5和GPT-4等先进文本模型的能力。尽管这篇综述全面描述了LLM的潜在应用,并将其分类为临床、研究和教育目的,但缺乏重要的实施细节和对开源模型的详细探索。
本综述的目的是系统地展示LLM在医疗领域的能力,主要关注临床应用。本文故意避免对其在医学教育和研究中的使用进行广泛讨论。相反,它旨在将这些模型与其他方法整合,并识别当前的趋势,强调文本模型。目标是清晰勾勒这些技术的实际应用,使其对研究人员和从业人员都变得可及和可行。
1背景
1.1语言模型
自然语言处理的一个关键里程碑是注意力机制在神经机器翻译中的引入 [9]。这一机制连接了序列到序列模型中的编码器和解码器,为后续的进展铺平了道路,使得模型在输出的每一步能够集中关注输入序列的不同部分,从而显著改善了对较长输入序列和复杂依赖关系的处理。值得注意的是,它导致了Transformer模型的创建 [10],该模型完全依赖于注意力机制。这一创新不仅彻底改变了自然语言处理领域,也改变了更广泛的人工智能和机器学习(ML)领域。
Transformer模型的出现推动了各种大型语言模型的发展,这些模型既有商业格式也有开源格式。其中最突出的系列模型是基于原始Transformer架构的解码器部分的GPT。基于解码器的模型特别适合自回归文本生成。相比之下,像BERT及其变体这样的编码器模型,通常采用掩码语言建模方法进行训练。虽然它们在文本生成方面的适用性可能较差,但由于可以针对各种任务进行定制和微调,因此它们的应用范围广泛,包括问答、情感分析、信息提取等。还有一些模型将编码器和解码器组件结合在一起,例如T5和BART。这些模型可以有效地将输入序列转化为输出序列,从而自然适应摘要和重述等任务。
尽管统计语言建模方法相对简单,且最初未集中于语言的基本规则,正如乔姆斯基所批评的,现代语言模型如GPT-4在各种语言理解任务中表现出了显著的高超能力。这些模型展示了新兴的能力和在学习自然语言模式中的巧妙性。现代语言模型经历了显著的范式转变,从预训练和微调方法转向接受上下文学习(ICL)和零次学习。这一进展使得它们能够在不需要更新模型权重的情况下解决任务。然而,仍然存在挑战,正如Mahowald等人所强调的。他们指出大型语言模型在形式和功能语言能力之间存在差距,注意到这些模型往往缺乏功能能力。他们建议将模块化整合到系统架构中,或者通过修订的训练过程来实现。
值得注意的是,当前研究正逐渐转向多模态模型,这些模型能够将视觉、文本以及潜在的音频等多种模态整合到一个模型中,从而为更全面的人工智能解决方案铺平道路。
👉[CSDN大礼包🎁:全网最全《LLM大模型入门+进阶学习资源包》免费分享(安全链接,放心点击)]👈
1.2开源大模型
开源大型语言模型是公开可用的,与其商业对手不同,它们可以自由修改和分发。这种开放性允许根据特定需求进行定制和调整,包括在私有服务器上部署,从而增强数据隐私和所有权,这在医疗等敏感领域至关重要。
在医疗领域,能够在本地部署大型语言模型是一个显著的优势。它确保敏感的医疗数据不必与第三方提供者共享,从而遵守严格的数据保护法规。医疗机构还可以定制这些模型,以更好地理解和生成医疗语言,优化它们以处理特定类型的医疗查询,并与机密数据集集成,同时保持患者的机密性。
然而,与商业模型相比,开源大型语言模型存在一定的局限性。它们通常缺乏商业供应商提供的广泛支持、持续更新和强大的基础设施。这些不足之处可能导致模型维护、可扩展性和性能方面的挑战。先进的开源大型语言模型广泛采用的主要障碍是其参数数量庞大,每个参数通常由一个浮点数表示。一般而言,参数数量越多,推理、模式识别和语言能力越强,但这也带来了更高的存储需求以及对更强大GPU的需求,无论是在推理还是微调方面。
表1总结了广泛使用的预训练开源文本和多模态模型(以英语为主),并按照参数数量和其架构进行分类。最近的研究通过引入参数高效的微调技术和减少内存与存储需求,提供了显著的解决方案,以降低大型模型对计算资源的需求。例如,低秩适应(LoRA)通过低秩参数调整优化更新,而不是更新所有模型参数。
此外,应用量化技术使开源大型语言模型能够减少内存占用并提高推理速度,从而使其更加高效,适合在更广泛的硬件上部署。量化低秩适应(QLoRA)将这些技术结合起来,有效地微调大型语言模型,同时显著降低内存和计算需求。例如,一个具有10亿个参数的模型,在使用16位浮点精度时,推理至少需要2GB的GPU内存,具体取决于输入长度。
相比之下,同一模型的量化版本可能只需大约一半的内存。此外,郭等人的最新研究提出了一种新颖的内存分配框架,该框架利用了低级GPU虚拟内存管理。该框架结合了一种虚拟内存拼接(VMS)机制,减少了GPU内存的使用和碎片化,从而进一步提高了部署大型语言模型的效率。
另一个显著进展是闪存注意(flash attention),它允许更高效地使用硬件,从而为本地硬件利用更大型的模型开辟了额外机会。
1.3医疗领域的特定大语言模型
领域专用的大型语言模型是为特定领域或主题量身定制的模型,从而增强其在该特定领域内生成更准确和相关响应的能力。通常,有两种常见的方法来创建领域专用模型:一种方法是使用一组特定领域的文档(例如医学论文)对模型进行预训练;另一种是采用通用训练模型并对其进行微调或适应目标领域。
医学领域富含来自电子健康记录(EHR)和其他医疗文档等来源的非结构化文本数据,是语言模型解决各种挑战的理想研究领域。这些应用范围包括以前由自然语言处理技术处理的任务,如临床缩略词消歧义,以及十年前无法完成的那些任务。例如,现在出现了能够同时帮助患者和医疗专业人员的医疗聊天机器人。针对这些进展,研究界一直在积极开发专门为医疗应用设计的语言模型。这些模型的演变,从预训练和微调策略到创建可以进行零样本学习的开源模型,突显了人工智能与医疗保健之间日益增强的协同作用。
早期的医学语言模型主要基于BERT,并遵循预训练和微调范式的共同趋势。ClinicalBERT在MIMIC-III数据集上进行预训练,并微调以预测医院再入院率,是该领域的开创性模型之一。另一个显著模型BioBERT,在PubMed文献库上进行预训练,并微调以执行命名实体识别(NER)、关系提取(RE)和医学问答(QA)等任务。将语言模型在生物医学语料库上进行预训练并微调以适应特定下游任务的有效性,如临床概念提取或测量语义文本相似性(STS),催生了许多其他基于BERT的模型,包括BiomedBERT、PubMedBERT、BEHRT和GatorTron。
BioGPT的问世标志着生物医学自然语言处理的又一里程碑。这种基于GPT-2的生成性预训练转换器,在数百万篇PubMed摘要上训练,已在特定任务中表现出卓越的性能,包括文本分类、生物医学文本生成和数据挖掘。
AlpaCare是一种医疗指令微调的大型语言模型,该模型在使用GPT-4人工生成的五万多个指令-响应对上训练,代表了当前一代医学大型语言模型的一个显著例子,可以在医学领域使用,而无需对下游任务进行微调。Clinical Camel是另一个从Llama-2模型微调而来的医疗大型语言模型,在各种医疗任务中表现出色,从临床记录创建到医疗分诊。尽管存在一些局限性,例如可能生成误导性内容和需要持续更新,但它在医疗大型语言模型方面达到了显著的进展。ChatDoctor模型解决了需要持续更新的问题。该模型基于Llama家族,并通过现实世界患者与医生之间的对话进行微调,可以访问外部信息来源,这在医学领域特别是对于新兴疾病来说至关重要。
该领域最近的进展,特别是开发同时处理文本和图像的多模态模型,也对医疗领域产生了重大影响。LLaVA-Med模型可以有效回答关于生物医学图像的开放式问题,而CheXagent模型专门针对胸部X光解释, exemplifies了从通用医疗模型到能够有效解决狭窄医疗领域问题的专业模型的成功转变。
表2提供了现有医疗大型语言模型的全面总结,尽管并不详尽。它展示了医疗大型语言模型开发的当前趋势,以及所使用的训练和测试数据集的演变。
2医学大模型应用
LLM在医学中的应用可以定义为两个集合的交集:LLM可以完成的任务和主要以文本为主的LLM能够增值的潜在医疗需求。虽然这两个集合都是有限的,但考虑到医学领域的广泛范围,第一个集合的基数可以说是更小的。因此,我们对医学应用的分类方法基于LLM任务的不同粒度,而这些任务与一般的NLP任务有很大的交集。我们关注从应用的角度来看具有实际意义的LLM任务,以及涵盖多个NLP任务的显著宏观应用,故意排除特定的细粒度NLP任务,如共指解析和依赖解析。表3提供了选定LLM应用程序及其在医学领域的使用概述。后续小节描述每个任务,并提供显著实施的示例。
2.1Text Generation 文本生成
文本生成在医疗领域的任务包括根据一系列先前的标记和特定背景创建上下文准确且相关的医学文本。该任务可能包括生成临床记录、病人报告或研究论文草稿。主要挑战在于确保生成的文本准确、医学上合理,并符合相关的隐私和道德标准。
为了实现这一目标,文本生成模型的概率框架被使用。给定一系列先前的标记 x1,x2,…,xt−1 和额外的上下文,生成下一个标记 xt 的概率可以定义为:
在这种公式中,“上下文”可能代表各种因素,具体取决于任务的性质。例如,在生成病人报告时,上下文将包括有关病人的可用信息,例如生命体征、先前的诊断和治疗。
基于解码器的大型语言模型(LLMs)通过根据前面的标记和上下文信息预测下一个标记的概率来生成文本。提供上下文的方法有所不同。最简单的方法是直接向 LLM 提供提示。然而,由于 LLM 中的知识是静态的,整合外部知识源可能是有利的。这种整合通常通过检索增强生成(RAG)技术的变体来完成。
基于变压器的模型的进展导致了从病人与医生互动中生成临床文档的创新方法。Brake 和 Schaaf 的一项研究比较了使用 PEGASUS-X 模型从医患对话中生成临床记录的两种模型设计。第一种设计 GENMOD 一次性生成整个记录,而第二种设计 SPECMOD 则独立生成每个部分。该研究旨在评估生成记录在年龄、性别、身体部位和连贯性方面的一致性。评估使用 ROUGE 和事实性指标、人类评审员以及 Llama2 LLM 进行。结果表明,GENMOD 在年龄、性别和身体部位参考的一致性上有所改善,而 SPECMOD 在连贯性方面可能根据解释有优势。该研究使用了一个包含 10,859 个医患对话的专有数据集进行训练和测试。Nair 等人提出了 MEDSUM-ENT,这是一种多阶段的方法,从医患对话中生成医学上准确的摘要。该方法以 GPT-3 为骨干,首先从对话中提取医学实体及其确认,然后通过提示链基于这些提取构建摘要。该模型利用少量示例提示和动态示例选择来提高实体提取和摘要的质量。用于评估的数据集包含来自医疗平台的 100 个去标识化临床接触记录。与零-shot、单提示基线相比,MEDSUM-ENT 在摘要的临床准确性和一致性上表现更佳,证明了通过质性医生评估和旨在捕捉医学正确性的定量指标。
将 LLM 与视觉模型结合,有助于自动生成医学影像报告。Chen 等人开发了 Dia-LLaMA,这是一种利用 LLaMA2-7B 模型与预训练的 ViT3D 相结合来处理高维 CT 数据的框架。它具有疾病原型记忆库和疾病感知注意模块,以抵消疾病发生不平衡。该框架在 CTRG-Chest-548K 数据集上测试,展示了在临床有效性和自然语言生成指标上优于其他方法的性能。另一种方法 R2GenGPT,通过利用视觉对齐模块,使胸部 X 光图像的视觉特征与 LLM 的词嵌入空间对齐,从而增强静态 LLM 处理视觉数据的能力。它探讨了三种对齐策略——浅层、深层和增量,每种策略在可训练参数上有所不同。在 IU-Xray 和 MIMIC-CXR 数据集上评估,R2GenGPT 在模型效率和临床指标方面取得了显著成果,充分利用了 Swin Transformer 和 Llama2-7B 模型以增强集成能力。
评估临床任务的商业模型不可避免地引起科学界的关注。Ali等人评估了ChatGPT在生成患者门诊信中的应用,重点关注其可读性、事实准确性和人类般的质量,通过使用模拟临床输入的速记指令对模型进行测试,以创建涉及皮肤癌场景的信件。该研究涉及38个假设的临床场景,包括基底细胞癌、鳞状细胞癌和恶性黑色素瘤。可读性使用在线工具Readable进行评估,目标为六年级阅读水平。两名独立临床医生使用李克特量表评估信件的正确性和人类般的质量。研究发现,ChatGPT生成的信件在正确性和人类般的质量上得分很高,可与人类撰写的信件相媲美,突显了人工智能在增强临床沟通方面的潜力,同时强调了需要谨慎监管和人类监督以减轻风险。
总体而言,虽然我们观察到文本生成任务中纯文本大型语言模型的巨大潜力,但多模态模型的出现势必会在医学领域的这类任务中取得成果。例如,完全多模态模型将能够准确生成基于患者与提供者的口头对话的临床文档,并根据最终用户的需求进行总结,而生成医疗影像报告在由单个多模态模型完成时将变得更简单,更准确。
2.2标记分类
医疗领域的标记分类任务涉及对文本中单个单词或短语进行特定的医学注释,例如从临床文本中识别和消歧义医学条件、药物、剂量和症状。
给定一个标记序列 X=(x1,x2,…,xn),标记分类任务涉及为序列中的每个标记 xi 从类别集合 C 中分配一个标签 yi。这可以表示为:
其中 yi 是标记 xi 的标签,f 是一个将每个标记及其上下文信息映射到 C 中的标签的函数。在这一表述中,上下文通常包括周围的标记,并可能还包含序列 X 之外的信息,例如外部词汇。
标记分类任务的典型实现涉及掩蔽和生成语言模型。对于掩蔽模型,例如 BERT,模型在带标签的临床笔记数据集上进行微调。在这里,标记不是为了预测而被掩蔽,而是为了利用分类层从上下文推断它们的标签。相反,生成模型通常使用提示来促进生成已经带有标签的文本,从而直接产生带标签的序列。
医学缩写和首字母缩略词的广泛使用常常导致误解,需要准确地消歧这些术语,以防止可能危及患者护理的误解。将医学术语的缩写形式映射到其完整表达的过程称为临床缩写消歧义。王和卡纳评估了多种基于临床 BERT 的语言模型在临床缩写感知清单(CASI)数据集上的表现,发现 ClinicalBert 有效地解决了这一任务,达到了 91.49% 的 F1 分数。此外,Sivarajkumar 等人评估了包括 GPT3.5、BARD 和 Llama2 在内的生成大型语言模型在使用相同数据集进行缩写消歧义方面的能力。他们的研究表明,这些模型在不进行微调的情况下也能很好地执行缩写消歧义,其中 GPT3.5 取得了最高的 0.96 精度。
虽然临床缩写消歧义的问题似乎在很大程度上得到了解决,但仍然存在一些挑战。例如,Kugic 等人使用 ChatGPT 和 BING 进行了关于德语临床缩写消歧义的研究,取得了 0.679 的 F1 分数,这突显了需要改进的必要性。另一个问题涉及实验中使用的数据集。大语言模型(LLMs)可能会记忆特定术语,这可能会误导它们真实的消歧义能力。这一问题需要进一步调查,以确保 LLM 在临床缩写消歧义任务中对现实数据集的可靠性。
2.3序列分类
医学领域中的序列分类任务涉及将整个文本序列分配一个分类标签,而不是对单个标记进行分类。这可能涉及将整个临床文档或病人记录分类为诊断、治疗建议或紧急程度等类别。
该任务可以表述如下。给定一个由标记序列组成的文档 d =(x1,x2,…,xn),序列分类函数将一个标签 y 从类别集合 C 中分配,表达为以下方程:
其中 y 是与文档 d 相关联的类别,f 是一个函数,它映射整个文档,同时考虑其上下文一致性和主题结构,得到一个在 C 中的标签。大型语言模型(LLMs)可以作为函数 f 的实现。
由于其固有结构,掩码 LLMs 特别适合序列分类任务。这些模型最初是在序列中预测掩码标记。为了进行分类, 可以通过使用 [CLS] 标记的输出(在 BERT-like 模型的情况下)或通过对嵌入应用各种池化函数来进行适应。在 [CLS] 标记的情况下,在该标记的输出上添加一个全连接层,旨在捕捉整个序列的上下文。或者,可以对序列的嵌入应用一些池化函数,如平均池化或最大池化,以汇总整个输入的信息。
生成型 LLMs 可以通过简单提示或微调的方式进行训练,使得它们学习预测作为序列一部分的类标签。这可以通过在输入上训练模型,其中一个特殊的标记或定界符指示输入的结束和输出标签的开始。虽然不太常见,但在生成模型中的最后一个标记输出后集成线性层可以细化与类预测相对应的 logits,从而增强模型生成特性所设定的分类边界。
序列分类所涵盖的任务范围广泛。以下小节详细介绍了一些最突出的应用。
2.3.1自杀行为预测
自杀行为预测任务主要集中在分析个体的社交媒体活动。Dus和Nefedov开发了一种自动化工具,用于识别社交媒体帖子中潜在的自残迹象,将该任务视为二分类问题。给定输入x,目标是预测二进制标签y,其中:
这里,x代表从社交媒体帖子中提取的特征。该模型使用经过微调的ELECTRA模型来估计P(y=1|x),即输入表明自杀行为的概率。该模型在Kaggle的“Suicide Watch”数据集和其他社交媒体来源的数据上进行了训练。他们的方法达到了93%的显著准确率和0.93的F1分数。
除了简单的社交媒体帖子分析,Levkovich等人评估了ChatGPT-3.5和ChatGPT-4基于感知的负担感和受阻归属感来评估自杀风险的能力。通过将ChatGPT的评估与心理健康专业人士使用小插曲进行的评估进行比较,他们发现ChatGPT-4的评估与专业判断高度一致。相比之下,ChatGPT-3.5往往低估自杀风险,强调了这些模型在特定领域的局限性。
总之,虽然将自杀行为识别视为社交媒体帖子上的简单分类任务可以使用标准分类指标获得令人印象深刻的分数,但这种方法的实际和伦理影响,包括潜在的自主权侵犯和无害原则,是有争议的。结构良好的小插曲研究LLMs和其他模型的有效性可以进一步推进该领域的研究。此外,探索人机协作的潜力代表了该领域另一个有前景的研究方向。
2.3.2Modeling Patient Timeline患者时间线建模
患者时间线建模的任务是多方面的,涉及预测未来的医疗事件、理解患者轨迹以及预测医疗结果。这项工作使用深度学习、变换器和生成模型来分析来自各种医疗记录的数据,包括结构化和非结构化数据。
Kraljevic等人介绍了Foresight,这是一种基于GPT-2的管道,旨在建模从临床叙述中提取的生物医学概念。该管道利用命名实体识别和链接工具将非结构化文本转化为结构化的编码概念。Foresight利用来自三家医院的覆盖超过800,000名患者的数据,展示了其在预测未来医疗事件方面的潜力。临床医生在合成患者时间线上验证了其有效性,突出了其在现实风险预测和临床研究中的潜在应用。
除了大语言模型,生成对抗网络(GAN)也越来越受欢迎,应用范围超出了最初的图像生成领域。Shankar等人提出了Clinical-GAN,该模型结合了变换器和GAN方法来建模患者时间线,侧重于基于过去的诊断、程序和药物编码来预测未来的医疗事件。在MIMIC-IV数据集上进行的测试中,Clinical-GAN在轨迹预测和序列疾病预测方面优于基线方法。另一项研究利用GAN预测急诊科的住院时长。学习过程分多个阶段进行。最初,无监督的训练阶段使用生成器和判别器来逼近概率分布,进行特征发现和重建。然后,优化判别器的参数以寻找全局最优解。一个最初随机初始化的预测层被添加并在微调过程中优化,使模型能够将观察映射到其住院时长。该模型在CHRU-Lille的儿科急诊科的数据上进行了训练,证明了GAN在该领域的潜力。
医疗结果预测可以看作是建模患者时间线的一个子任务,通常被限制为预测死亡率、特定疾病的结果或一种疾病向另一种疾病进展的风险。Shoham和Rappoport最近的一项研究检查了与慢性肾病、急性和未确定肾衰竭以及成人呼吸衰竭相关的数据,数据来自MIMIC-IV和eICU-CRD数据集。利用这些数据,团队生成了基于患者历史的疾病诊断预测标签数据集。他们提出了一种名为大型语言模型临床预测(CPLLM)的方法,通过使用医学特定提示对大语言模型(Llama2和BioMedLM)进行微调,以帮助模型理解复杂的医学概念关系。Xie等人利用电子健康记录分析预测癫痫发作,借助于Bio_ClinicalBERT、RoBERTa和T5,在结果分类中实现了0.88的F1分数。
Henriksson等人提出了一种显著的方法来预测COVID-19患者的结果。作者创建了一种模型,结合了结构化数据和非结构化临床笔记,以多模态的方式,利用临床KB-BERT模型进行多模态微调。该模型在瑞典斯德哥尔摩六家医院的数据上进行训练,有效预测了急诊科COVID-19患者的30天 mortality、安全出院和再入院。
2.3.3表型分析与医学编码
表型任务主要涉及从患者的各种医疗记录中识别表型异常,这有助于罕见疾病的识别。存在一个人类表型本体(HPO)项目,该项目系统地对人类表型进行分类,并提供详细的注释。因此,表型任务可以被框架为一个多标签分类任务,我们需要找到映射 f:𝐗→2𝐘,其中 𝐗 表示患者医疗记录的集合,每个医疗记录 xi∈𝐗 对应于第 i 条记录的医疗数据(大多数情况下为非结构化文本),𝐘 表示来自 HPO 的所有可能表型标签的集合,其中每个标签 yj∈𝐘 代表一个特定的表型。表型任务的目标是将每个医疗记录 xi 映射到表型标签的子集 Yi⊆𝐘,使得 Yi 代表与 xi 相关的患者所表现的表型集合:
传统上,表型的任务依赖于命名实体识别,类似于 BERT 的模型已显示出其专业能力。然而,最近的研究开始探索上下文学习和零样本学习与当代 LLMs 的结合,产生了令人鼓舞的结果。
医学编码是另一个多标签分类任务,涉及识别与医疗记录相关的一组国际疾病分类(ICD)代码。该任务可以类似于表型进行公式化,关键区别在于 𝐘 代表一组 ICD 代码而非表型标签。除了观察到与表型子领域类似的趋势外,还值得注意的是,迈向可解释医学编码的转变,如在相关研究中所强调的。
2.4问答和信息抽取
问题回答(QA)任务可以被形式化为从一个可能的答案集合𝒜中找到答案A,给定一个问题Q和一个上下文C(通常是包含与问题相关信息的文档或文档集)。这可以表达为:
P(a∣Q,C)是给定问题Q和上下文C时,a是正确答案的概率。
信息提取(IE)任务涉及识别文档中的特定信息(实体、关系、事件)。这可以描述为一个函数f,将一组文档D映射到一组结构化属性S,其中包括实体E、关系R和其他感兴趣的属性:
这里,D是输入文档,S表示包含提取元素的结构化输出。
掩蔽模型非常适合问题回答任务。它们可以在特定的QA数据集上进行微调,其中输入是问题和上下文的连接(包含答案的段落或文档)。然后模型被训练来识别回答问题的文本跨度,通常通过向MLM的输出嵌入添加开始和结束标记分类器。这些分类器预测文本中答案的开始和结束位置。另一方面,生成模型利用其在多样化数据上的广泛预训练。通过输入一个问题(必要时附上相关文档),并跟随一个促使模型生成答案的提示,这些模型可以在不需要明确指向答案跨度的情况下产生响应。
在医疗领域,IE和QA系统在从电子健康记录中提取数据方面至关重要,例如药物清单和诊断细节,这对患者管理和治疗规划至关重要。一个显著的例子是quEHRy,一个旨在使用自然语言查询电子健康记录的QA系统。quEHRy的主要目标是为临床医生的问题提供来自结构化电子健康记录数据的准确和可解释的答案[150]。除了成功应用于QA和IE的基于BERT的模型,如BioBERT、BiomedBERT和PubMedBERT之外,生成模型也显示出其能力。Agrawal等人展示了生成性LLM(如InstructGPT和GPT-3)在临床文本中进行零样本和少样本信息提取的有效性。当在重新注释的CASI数据集上进行测试时,这些模型在需要结构化输出的任务中显示出相当大的潜力[185]。此外,Ge等人比较了LLM与人工图表审查在从电子健康记录中提取数据元素的有效性,特别关注肝细胞癌影像报告。使用GPT-3.5-turbo模型,在一个安全的UCSF环境中实施为“Versa Chat”,以保护患者健康信息,该研究分析了来自肝移植功能评估研究的182份CT或MRI腹部影像报告。它提取了六个不同的数据元素,包括最大LI-RADS4评分、肝细胞癌病灶数量和大血管侵袭的存在。通过计算准确性、精确性、召回率和F1分数来评估性能,显示出较高的整体准确性(0.889),具体取决于数据元素的复杂性[186]。
2.5总结和释义
改写涉及将文本T重写为新形式P,确保P保持与T相同的含义,但使用不同的词汇和可能改变的句子结构。另一方面,摘要是生成文本T的简要版本,保留其核心信息。抽象摘要可以被视为改写的特定案例。
掩码语言模型擅长提取性摘要。它们评估文本中的句子以确定其相关性和信息量。通过对每个句子打分,这些模型识别并连接最重要的句子,以形成一个连贯的摘要。相比之下,抽象摘要和改写通常采用生成(基于解码器)或序列到序列(编码器-解码器)模型。这些模型经过训练,以理解整个叙述或文档,然后以不同的形式重现其本质。
医学领域中使用摘要和改写工具来管理大量文档和增强沟通。摘要帮助医疗专业人员快速掌握冗长临床记录中的重要细节,生成医学研究论文的简洁摘要,并撰写清晰的病人出院总结,从而提高病人对医疗建议的理解与遵循。改写通过将医学术语转换为更简单的语言来使复杂信息更易于获取,以便进行病人教育。同时,改写提高了电子健康记录的清晰度和一致性,帮助医疗提供者更好地理解和有效利用数据。
医学领域的摘要和改写在很大程度上受到这些任务的一般进展的推动。Devaraj等人介绍了一种来自Cochrane系统评价数据库的新数据集,其中包括技术摘要和通俗语言摘要的配对。他们提出了一种基于掩码语言模型的新指标,以更好地区分技术文本和简化文本。该研究利用基线编码器-解码器Transformer模型进行文本简化,并提出了一种创新的方法来惩罚行话术语的生成。代码和数据已公开可用于进一步研究。
题为“经过超词替代后生物医学文本的可读性”的论文研究了使用大型语言模型简化生物医学文本,以增强病人的理解。作者对三种大型语言模型变体进行了微调,以用其超词替换复杂的生物医学术语。使用的模型包括GPT-J-6b、SciFive T5和一种结合序列到序列和sciBERT模型的方法。该研究处理了来自统一医学语言系统的1000个生物医学定义,并使用弗莱施-金凯德可读性和等级、自动可读性指数以及亨宁雾指数等指标评估可读性改善。结果显示可读性显著改善,GPT-J-6b模型在降低句子复杂性方面表现最佳。
改写的另一个有趣应用是医疗文档的匿名化,这对于平衡伦理原则和研究需求至关重要。Wiest等人提出了一种使用大型语言模型对医疗自由文本进行去识别化的方法。作者在来自德国医院的100封临床信件的数据集上基准测试了八种本地可部署的LLM,包括Llama-3 8B、Llama-3 70B、Llama-2 7B、Llama-2 70B和Mistral 7B。他们开发了LLM-Anonymizer管道,使用Llama-3 70B在去除个人识别信息方面达到了98.05%的成功率。该工具是开源的,可在本地硬件上操作,不需要编程技能,使其在医疗机构中易于获取和操作。该研究展示了大型语言模型有效去识别医疗文本的潜力,优于传统的NLP方法,并为医疗数据隐私保护的共享提供了一种强有力的解决方案。
尽管在摘要和改写方面取得了进展,但仍然存在一些挑战,特别是在保持事实准确性和精确性方面。Jeblick等人研究了使用ChatGPT(2022年12月15日版本)将放射学报告简化为非专业人士能够理解的语言的有效性。一名放射科医生创建了三份假设的放射学报告,这些报告随后被ChatGPT通过提示进行简化。十五名放射科医生根据事实正确性、完整性和对患者的潜在伤害等标准评估了这些简化报告的质量。该研究使用了李克特量表分析和归纳式自由文本分类法来评估简化报告。总体而言,放射科医生发现简化报告在事实准确性和完整性方面符合要求,潜在伤害极小。然而,也注意到了一些问题,包括不正确信息、相关医学数据的遗漏,以及偶尔出现的误导性或模糊的陈述。这些问题强调了在使用语言模型简化复杂医学文本时需要医学专业人士进行仔细监督的重要性。Landman等人的一项最新研究讨论了由辉瑞组织的一个挑战,探讨使用大型语言模型(LLMs)自动化临床研究报告中的安全表摘要。各个团队应用了GPT模型和提示工程技术生成摘要文本。这些数据集包含来自72份近期临床研究的安全输出,分为70%用于训练,30%用于测试。研究得出结论,尽管LLMs在自动化临床研究报告表的摘要方面展现了潜力,但仍需人类参与和进一步研究,以优化它们的应用。
2.6Conversation 对话
对话生成的任务可以表述如下给定对话历史H=(h1,h2,…,hn)其中每个hi代表对话中的一句话目标是生成回应R通常预训练的基于解码器的大型语言模型会使用专业数据集进行微调以发展其对话能力在医疗领域对话应用促进了与患者的互动交流例如对话人工智能可以作为虚拟健康助手提供基于患者描述的症状的初步咨询这些系统可以提出相关的后续问题评估症状并提供初步建议或在必要时指导患者寻求专业护理此外这些对话工具还可以用于患者教育用简单的语言解释复杂的医学状况和治疗方法以增强理解和依从性另一个显著的应用是在心理健康支持中对话人工智能可以提供应对策略和基本支持从而增强传统治疗会话
2.6.1Chatbots聊天机器人和健康助手
LLM在生成连贯文本和发现自然语言中的模式方面的熟练能力使其成为对话健康代理(CHA)或聊天机器人的优秀候选者。像ChatGPT这样的系统的令人印象深刻的能力激发了研究人员评估它们作为即用型医疗聊天机器人的兴趣。这些聊天机器人能够就医疗主题进行对话并提供有效的基于科学的响应,类似于人类医生。
Cung等人评估了三个商业系统——ChatGPT、Bing和Bard在骨骼生物学和疾病方面的表现。该研究涉及提出30个问题,分为三个类别,由四位评审员对答案的准确性进行评分。虽然ChatGPT 4.0具有最高的总体中位数得分,但研究表明这三个聊天机器人的回答的质量和相关性存在很大差异,存在不一致性和未能考虑患者人口统计特征等问题。另一项研究探讨了使用ChatGPT进行患者与医生之间的沟通。一项对430名参与者的调查发现,ChatGPT的回答通常与医疗提供者的回答难以区分,表明在回答低风险健康问题时,人们对聊天机器人存在一定的信任。
尽管聊天机器人在一般情况下以及低风险医疗互动中表现良好,但一些研究表明,聊天机器人尚不适合高风险子领域。例如,一项针对Bing和Bard聊天机器人提供的心肺复苏建议的研究显示,这些回答经常缺乏符合指南的一致性说明,并且偶尔包含可能有害的建议。来自Bing(9.5%)和Bard(11.4%)的仅一小部分回答完全符合检查清单标准(P>.05),凸显了基于LLM的聊天机器人在关键医疗场景中的当前局限性。
医疗聊天机器人领域的另一项研究方向是实施专门为医疗领域设计的对话代理。Abbasian等人提出了一种复杂的基于LLM的多模态框架,专注于批判性思维、知识获取和多步骤问题解决。该框架旨在使CHA能够提供个性化的医疗响应并处理复杂任务,例如压力水平评估。
特定领域的LLM,例如ChatDoctor模型,也可以充当聊天机器人。该模型集成了一种自导向的信息检索机制,使其能够从在线和策划的离线医疗数据库中访问最新信息。使用BERTScore进行评估时,ChatDoctor的F1得分高于ChatGPT-3.5,证明了较小的特定领域模型作为大型商业解决方案的替代方案的有效性。
总体而言,聊天机器人显示出潜力,特别是在低风险咨询领域。然而,潜在的虚构信息、缺乏可解释性以及偏见等问题突显了它们在实际案例中的应用挑战。此外,缺乏一个强大、全面、普遍接受的聊天机器人评估指标也是一个显著问题。人工评估缺乏可扩展性,而像BERTScore这样的相似性指标可能会忽视关键的事实不准确性。
2.6.2心理健康机器人
使用机器作为个人心理医生的想法早在1960年代就提出,当时Weizenbaum提出了一个名为ELIZA的简单规则系统。现代心理健康聊天机器人的进展主要受到大型语言模型的推动。Yang等人调查了当前大型语言模型在自动心理健康分析中的能力。他们的研究涉及在各种数据集上评估大型语言模型在情感推理和检测心理健康状况等任务中的表现,使用了包括BLEU、ROUGE系列、BERTScore衍生品、BART-score和人类评估在内的各种相似性度量。他们发现,虽然ChatGPT在上下文学习方面表现出色,但在情感相关任务中仍面临挑战,并且需要精心设计提示以提高其性能。Saha等人介绍了一种虚拟助手,用于支持患有重度抑郁症的个体,使用了一个名为MotiVAte的数据集。他们的系统基于修改过的GPT-2模型和强化学习,在生成富有同情心和激励性的响应方面显示了良好的效果,这得到了基于文本相似性的自动评估和基于流利度、适应性和激励程度的人类评估的证实。
Sharma等人介绍了一个用于训练基于GPT-3模型的生成含有控制语言属性的重构的数据集。该项目在心理健康美国网站上发布,这允许进行随机领域研究以收集关于人类偏好的发现。另一组团队探讨了对心理治疗助手指令的开源大型语言模型的微调,使用了来自Alexander Street Press的心理治疗和咨询课程的数据集。他们的结果表明,基于领域特定指令微调的语言模型在心理治疗任务中超过了未微调的同行,突显了对这些模型进行专业和特定上下文训练的重要性。
通过人类与人工智能的合作,观察到了良好的结果。最近的一项研究进行了随机对照试验,涉及人类同伴支持者,证明了一个人工智能介入的代理使寻求心理健康支持的个体与支持专家之间的互动中的对话共情提高了19.60%。这是通过为同伴支持者提供反馈改善建议实现的。这项研究表明,人机协作是一个潜在探索的关键领域,特别是在医疗领域。
大型语言模型不断发展的推理能力激发了对其使用于疾病诊断的兴趣。Levine 等人进行了实验,使用 GPT-3 模型评估其诊断和分诊的准确性。他们的结果表明,GPT-3 的诊断准确性与医生相当,但分诊的准确性有所欠缺。在88%的病例中,GPT-3在其前三个选择中正确识别了诊断,超越了非专家(54%),但与专业医生(96%)相比略显不足。在分诊表现方面,GPT-3的准确率为70%,与非专家(74%)持平,但显著低于医生(91%)。尽管 GPT-3 表现显著,研究提出了伦理问题,特别是关于模型可能延续现有数据偏见,表现出种族和性别偏见,并偶尔产生误导或错误信息。
Liu 等人最近的研究引入了一个名为 PharmacyGPT 的框架,该框架利用当前的 GPT 家族模型来模拟临床药剂师的角色。这项研究利用了来自北卡罗来纳大学教堂山分校 (UNC) 医院重症监护病房的真实数据。PharmacyGPT 应用于解决药学领域的各种挑战,包括患者结果研究、基于人工智能的药物处方生成和可解释的患者聚类分析。研究表明,当提供动态背景和类似样本时,GPT-4 模型在所有测试模型中达到了最高准确率。然而,各种方法的精确率和召回率并没有显著提高。这一结果可能是由于死亡预测的二元性质、数据集中的重大失衡,以及重症监护药学方案的复杂性和个性化特征。该研究强调需要定制评估指标来评估 AI 生成的药物计划的性能,以更好地理解模型的优缺点。
3挑战和机遇
本节探讨了在医疗保健中整合大型语言模型所带来的挑战和机遇
3.0.1伦理问题
培训数据集中存在的偏见可能导致结果偏差,对某些患者群体造成不成比例的影响 未来的努力必须集中于开发能够减轻偏见的伦理框架和策略,确保大型语言模型在医疗保健中的公平应用。
确保患者自主权、数据机密性和防止泄露的保护至关重要。开发特定领域的开源模型用于本地使用是保护患者隐私和减少对外部实体依赖的一个显著进展,进一步专业化模型和采用计算效率高的解决方案可以确保受控数据访问并遵守当地数据处理政策
3.0.2数据集
随着文本AI在药物计划生成、分流、从病历中提取结构化数据以及提供医疗咨询等领域的新应用不断出现,开发新颖、开放且去标识的数据集变得愈发必要 许多现有数据集是在大型语言模型出现之前创建的,这可能会夸大研究结果并导致对当前模型有效性的高估 此外,许多现有数据集的访问需要特殊批准,这妨碍了这一领域的广泛研究 未来的努力应集中于创建和利用专门设计用于评估医疗领域大型语言模型的开放数据集,以更准确地反映它们的真实能力
3.0.3事实准确性挑战
事实准确性在医疗保健中至关重要 医疗解决方案需要接入最新和经过验证的来源,并且必须经过严格的事实准确性检查 迫切需要开发自动化指标以评估医疗文本生成的事实准确性 此外,探索将医疗大型语言模型与本体、图注意力网络和其他更确定性模型相结合的研究代表了另一个有前景的方向
3.0.4人机协同
需要进一步研究以增强我们对医疗保健中人机协作的理解和优化 这包括探索医疗专业人员如何与AI工具最佳互动和利用,以改善决策和患者护理,同时减少日常工作,以帮助防止职业倦怠 一个例子可以是进一步探索与AI互动的代理,类似于[193]中描述的内容
3.0.5进行实证研究的必要性
对医疗保健中AI真实应用案例的实证研究至关重要 理论研究拓宽了我们的理解,但在医院和诊所等真实医疗环境中的实际挑战相对较少被理解 研究应集中于AI应用如何与医疗系统集成、对工作流程和医疗专业人员的影响,以及对患者结果、工作人员效率和成本的长期影响 此外,解决AI实施挑战,包括数据隐私、伦理问题以及对系统的持续培训和更新的需求,也是至关重要的 这将指导AI集成的最佳实践、降低风险,并确保这些技术有效提升患者护理和医疗服务质量
4摘要和总结
本研究详细探讨了大型语言模型在医学领域的最新进展,特别关注临床应用。研究首先追溯了大型语言模型的发展,涵盖了通用模型和特定领域模型,并考察了它们的架构和医疗应用。论文强调了这些模型执行的各种任务,如文本生成、标记分类和问答,并通过真实的医疗场景展示了它们的实用性。这表明大型语言模型在医学实践中如何提高效率和效果,特别是通过使用支持定制解决方案并保护隐私的开源模型。
大型语言模型研究的最新进展引入了更全面和高效的方法,特别是通过融合视觉、文本和潜在音频数据的多模态模型。这些进展促进了整体人工智能解决方案,并得到了如参数高效微调和闪存注意等技术的支持,减小了计算需求。向具有上下文学习能力的生成性大型语言模型的转变标志着一个关键的演变,尤其是在放射学报告生成等小型医学领域。
然而,LLM在医疗保健中的部署面临几个挑战。最主要的问题是维护患者自主权、确保数据保密性以及防范数据泄露。在医疗机构中直接应用开源的特定领域模型可以减轻这些问题,同时减少对第三方数据处理者的依赖。此外,需要通过专门针对公平医疗而设计的全面伦理框架来解决可能对患者群体产生不平等影响的训练数据偏见。
为了提高事实准确性,持续访问更新的来源和强大的验证指标是必不可少的。将LLM与已建立的医学本体、确定性模型或结构化数据相结合,可以增强它们的效用。此外,促进人机协作可以改善临床决策并减轻常规负担,从而有可能减少职业倦怠。
未来的研究应专注于在真实环境中的实证研究,以更好地理解如何将AI整合到医疗工作流程中,其对患者护理的影响,以及对结果和成本的长期影响。这将解决实际挑战,并优化LLM在医疗保健中的部署策略,确保它们实现有效性和伦理完整性的双重目标。
文章来源:知识图谱科技
零基础如何学习AI大模型
领取方式在文末
为什么要学习大模型?
学习大模型课程的重要性在于它能够极大地促进个人在人工智能领域的专业发展。大模型技术,如自然语言处理和图像识别,正在推动着人工智能的新发展阶段。通过学习大模型课程,可以掌握设计和实现基于大模型的应用系统所需的基本原理和技术,从而提升自己在数据处理、分析和决策制定方面的能力。此外,大模型技术在多个行业中的应用日益增加,掌握这一技术将有助于提高就业竞争力,并为未来的创新创业提供坚实的基础。
大模型典型应用场景
①AI+教育:智能教学助手和自动评分系统使个性化教育成为可能。通过AI分析学生的学习数据,提供量身定制的学习方案,提高学习效果。
②AI+医疗:智能诊断系统和个性化医疗方案让医疗服务更加精准高效。AI可以分析医学影像,辅助医生进行早期诊断,同时根据患者数据制定个性化治疗方案。
③AI+金融:智能投顾和风险管理系统帮助投资者做出更明智的决策,并实时监控金融市场,识别潜在风险。
④AI+制造:智能制造和自动化工厂提高了生产效率和质量。通过AI技术,工厂可以实现设备预测性维护,减少停机时间。
…
这些案例表明,学习大模型课程不仅能够提升个人技能,还能为企业带来实际效益,推动行业创新发展。
学习资料领取
如果你对大模型感兴趣,可以看看我整合并且整理成了一份AI大模型资料包,需要的小伙伴文末免费领取哦,无偿分享!!!
vx扫描下方二维码即可
加上后会一个个给大家发
部分资料展示
一、 AI大模型学习路线图
整个学习分为7个阶段
二、AI大模型实战案例
涵盖AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,皆可用。
三、视频和书籍PDF合集
从入门到进阶这里都有,跟着老师学习事半功倍。
四、LLM面试题
五、AI产品经理面试题
😝朋友们如果有需要的话,可以V扫描下方二维码联系领取~
👉[CSDN大礼包🎁:全网最全《LLM大模型入门+进阶学习资源包》免费分享(安全链接,放心点击)]👈
更多推荐
所有评论(0)