随着大语言模型(LLM)在医疗领域的快速发展,其被寄予厚望:减轻医师文书负担、提升工作效率、增强一致性。然而,这项技术的潜在“副作用”不容忽视。
NEJM AI观点文章指出,贸然将LLM融入临床实践会增加医师责任,包括审核错误和承担风险,可能加剧医务人员的职业倦怠。作者强烈支持在临床上开发和应用LLM,但呼吁通过研究和建立共同责任机制,让医师自信履职,同时保障患者安全。
LLM所生成内容的审核负担
The Burden of Reviewing LLM-Generated Content
OhdeJW, Rost LM, and Overgaard JD
DOI: 10.1056/AIp2400979
摘 要
医疗领域的大语言模型(LLM)旨在减轻医疗专业人员的认知和管理负担。然而,LLM生成内容的准确性和完整性各异。审核上述内容是否有误对于确保文档准确性和完整性至关重要。遗憾的是,人类倾向于选择认知努力最少的路径,而且很快就会过度依赖自动化辅助工具。开发人员提出,医疗领域LLM应用程序不是自动化解决方案,因为它们需要应用人环系统(human-in-the-loop approach),而且通过医师审核可以充分降低出错风险。然而,LLM比人类更胜一筹的观点将高估模型的能力。当人类进一步依赖LLM输出内容时,上述关于自动化的论点就不再成立了。
虽然医师在临床实践中拥有最终决定权,但上述人环系统是基于两个原则:假设每位医师每次都会全面审核有关每位患者的所有输出内容;依赖免责声明减轻责任,并将责任从开发人员转移到医师身上。这给医师带来了新的沉重负担,而校对既非用户撰写也非用户口述的内容这件事是很难做好的。关于当医师工作从生成新内容转移到审核LLM生成内容时,效率和认知负担方面的净收益如何,目前只有极少数已发表的研究。此外,使用LLM还会增加医师对自己未撰写的内容所承担的责任。遗漏LLM输出内容中的高危错误这一责任是需要考虑的新情况,我们对此知之甚少。
对使用LLM生成临床文档或临床交流信息开展进一步研究时,应考虑校对工作产生的认知影响和增加的医师责任。我们建议综合考虑实施科学、用户体验研究以及来自政策制定者、监管者和医学专业学会的合作意见,建立一个共同责任机制。该机制旨在保护患者,同时让医师可以自信地履行职责,最终提高患者安全性和医师满意度。
大语言模型(LLM)被寄望于减轻医疗专业人员的认知和管理负担。有证据表明,LLM可在多个层面超越人类能力。使用LLM生成的临床总结不仅速度更快,而且往往更全面。现已证明,通过LLM辅助回复患者信息可以减轻医师工作量,提高医师回复的一致性。
然而,LLM生成内容的准确性和完整性各异,而且往往难以预测。错误率因场景、用途、输入数据、用户和提示语的不同而有很大差异。但在临床实践中,错误严重程度才是最重要的。拼写错误严格来说也是错误,但与日期不准确或完全遗漏临床重要信息相比,对患者造成伤害的风险可能要低得多。在某些情况下,未经编辑的LLM草稿可能会对患者造成严重伤害或导致死亡。审核和编辑错误信息具有重要意义,可以确保交给患者后续医师的文档是准确和完整的。许多临床决策都要参考之前的临床记录、实验室和放射学报告以及患者信息。此外,LLM生成的内容经常使用来源类似的数据,可能会使患者病历中的不准确数据呈滚雪球式地增长。
我们承认,所有医疗专业人员的职业倦怠都是真实存在的,应通过多种方法解决,包括基于LLM的解决方案。然而,自动化偏倚也是真实存在的,而且易于理解。众所周知,人类会选择认知努力最少的路径,而且很快就会过度依赖自动化辅助工具。开发人员提出,医疗领域的LLM解决方案并不是自动化解决方案,因为在保存输出的内容之前,需要应用人环系统。
然而,LLM比人类更胜一筹的观点可能会导致对模型的不合理依赖。当人类开始完全依赖LLM输出内容时,上述关于自动化的论点就不再成立了;根据定义,LLM就是一种自动化形式。在这种情况下,医师严格来说仍然属于“人环系统”的一部分,但实际已不再完全参与其中。需要注意的是,自动化偏倚无法通过训练、指导或练习来避免。这并不是一个新概念,LLM开发人员和用户有必要更仔细研究和讨论这一问题。
除减轻医师负担的承诺以及错误率和自动化偏倚等问题外,还有一个问题在讨论中很少被提及:LLM给医师造成的新负担。当模型开发人员被问及如何识别LLM解决方案造成的错误时,他们通常会说,这种风险很小,对患者采取后续措施之前的医师审核可充分降低这一风险。虽然医师在临床实践中拥有最终决定权,但还有更多需要考虑的问题,因为上述人环系统是基于两个原则:我们假设每位医师每次都会全面审核有关每位患者的所有输出内容;我们依赖免责声明减轻责任,并将责任从开发人员转移到医师身上。
遗憾的是,虽然目的是减轻医师的管理负担,但同时也使他们面临风险,并在工作流程中增加了新的认知工作。第一条原则给医师带来了新的沉重负担,他们需要完成责任重大的校对工作,而最初曾承诺使用LLM可以减轻他们的认知和管理负担。如果我们期望医师全面校对和编辑LLM生成的内容,我们就必须承认这是施加给医师的一项新的认知和管理工作。校对既非用户撰写也非用户口述的内容这件事是很难做好的,尤其是在压力下。
此外,由于模型的新颖性、黑箱性质以及模型性能缺乏透明度,医师很难信任模型,从而导致认知工作量增加。关于当医师工作从生成新内容转移到审核LLM生成内容时(这是工作流程中两种不同的认知活动),效率和认知负担方面的净收益如何,目前只有极少数已发表的研究。我们预计其影响会因使用场景和具体用户因素而异。
第二项原则将增加医师责任,而我们对这方面也知之甚少。这种责任分配方法增加了医师对自己未撰写的文件所承担的责任,可能会造成另一种负担和更大压力。这可能会使医师容易犯错和产生职业倦怠,从而进一步加剧犯错风险。医师对于为自己的决策承担责任并不陌生,但遗漏LLM输出内容中的高危错误这一责任是需要考虑的新情况。
一个合理类比可能是诊断放射科。这一专科极易产生职业倦怠和面临诉讼。有关该专科职业倦怠的文章提到了个人独立工作和复杂认知负担,尤其是时间紧迫的情况下。如果不加注意,审核LLM输出内容的工作也会出现类似的工作环境。该专科的诉讼风险很高,但并未发现它与放射科医师的职业倦怠风险直接相关。尽管如此,使用LLM的风险仍是真正存在的,医师及其工作的医疗系统必须考虑到这一点,这与我们放射科同事如何适应其面临的风险类似。在考虑个人工作量、临床团队内的工作分配及其他系统因素(这些因素将影响医师在当今受LLM影响的环境中的体验)时,实施和应用LLM的领导者必须理解并考虑这一过程中对医师提出的要求。
要明确指出的是,我们强烈支持在临床实践中开发和使用LLM。但是,我们建议,对使用LLM生成临床文档或临床交流信息开展进一步研究时,应考虑校对工作产生的认知影响和LLM给医师增加的责任。虽然人们正努力地系统性评估LLM性能,但我们尚未看到这些框架中确认以下假设:审核和编辑LLM生成内容这一工作可减轻认知负担。随着生成式AI沿着技术成熟度曲线(了解一项技术或应用如何随时间演变的通用框架)不断发展,这些因素也会发生变化。
当务之急是开展研究,评估与审核工作相关的认知负担、随着审核时间而变化的出错频率,以及工作满意度。我们建议在实施科学和用户体验研究领域采用混合方法和三角互证法。上述方法可包括自我报告的指标(如NASA任务负荷量表和用户体验的可用性量表[Lite;UMUX-Lite])、半结构式访谈、行为指标(如任务时间和错误率)以及使用和不使用LLM的对比分析。内部管理机构可以要求对产品开发人员进行上述评估,以推动此类研究。
考虑医师责任增加这一问题也是政策制定者、监管者和专业医疗学会的当务之急。明确建立共同责任机制对于保护患者至关重要,同时让医师可以在不担心责任增加的情况下开展工作。其中一个例子是在开发人员、医师和医疗机构之间分配责任风险的共同责任机制。此外,可以通过限制医疗事故赔偿上限,减轻医师因确认LLM输出内容而承受的压力。
了解并解决这些问题将提高患者安全性和医师满意度。我们呼吁该领域专家在制定可行解决方案时发挥创造性思维,让医师能够有效地使用这项技术,而不必承受更多管理负担。
本文荟萃自NEJM医学前沿,只做学术交流学习使用,不做为临床指导,本文观点不代表数字重症 ICU.CN立场。
微信扫一扫