人工智能在重症领域中的应用：机遇与挑战

随着越来越多可用的高维健康数据的出现，以及处理和分析它们的计算能力的加速，出现了一个新兴的机会，以更清晰、精确和高效的方式定义健康和疾病状态及其潜在的生理和病理生理机制。理想情况下，这些进步可能被应用于实时诊断和患者管理。或许在医疗系统中，没有哪个领域比重症监护室（ICU）环境更具有挑战性，需要创建具有直接时间紧迫性的临床应用的有用模型，同时实现这些目标的障碍也更为巨大。基于机器学习（ML）的人工智能（AI）技术用于定义状态和预测未来事件在现代生活中是常见的活动。然而，它们在急重症医学中的应用一直缓慢、不连贯且不均衡。有许多论文描述了各种类型的机器学习方法。但是，这些方法和工具的实现以及帮助临床医生的努力一直是不稳定的。

要解决一些主要障碍，以广泛有效地应用AI于危重病人的实时救治。目前，临床决策支持系统（CDSS）不能取代急重症医疗环境中的在床边决策的临床医生。原因众多，包括CDSS缺乏情境意识的成熟度，许多大型数据库中的基本偏倚，这些偏倚不反映正在治疗的目标患者群体（使公平成为一个需要解决的重要问题），以及技术障碍，这些障碍阻碍了及时获取有效数据及其以对临床工作流程有用的方式展示。许多预测算法和CDSS的固有“黑箱”特性使得医疗社区难以信任和接受。从逻辑上讲，实时整合和策划各种来源的多维数据流，以配合算法并最终展示适应个体患者反应和特征的相关临床决策支持格式，代表了这些系统的输出部分，通常在初始验证工作期间被忽视。同样，法律和商业障碍限制了对许多现有临床数据库的访问，限制了研究以解决预测模型和管理工具的公平性和普适性。本文将探讨在重症医学中有效使用AI的障碍，以及绕过或解决这些障碍以实现有效的CDSS的方法。

图1 AI在重症医学应用的路线图

真实世界临床数据在模型构建和临床决策支持系统（CDSS）中的应用

大量高度细化的数据：比如来自监测和生命支持设备、实验室和影像学研究以及临床笔记的数据，正不断地被生成并存储在危重病患者的电子健康记录（EHRs）中。可供分析的患者数据量之大，使得临床试验样本大小相形见绌。因此，既有充足的数据可用性，也有明确的数据驱动CDSS的机会。与临床试验或前瞻性注册队列研究相比，真实世界数据的劣势，如偏倚和非随机缺失，如果得到解决，将被明显的优势所抵消，包括未筛选的患者群体、更大的样本量以及更新和聚焦分析的能力，所有这些都有可能以较低的成本最大化外部有效性。目前，大多数重症监护EHR数据仅用于患者护理，而非次级使用。障碍包括与隐私保护相关的法律和伦理问题，以及与不同基础的重症监护单元数据（EHR供应商，相似的临床概念在不同地方被不同地表示，从而引入语义歧义）相关的概念映射技术问题。但一个非常大的障碍是缺乏激励措施，使得重症监护数据可供本地、区域或一般使用。然而，医疗系统能够从所有患者的所有数据中学习的概念是吸引人的，应该促进数据团结。

在所有层面上负责任地共享大型ICU数据集意味着要在隐私保护和数据可用性之间找到正确的平衡。这需要仔细结合治理政策和技术措施进行去标识化，以遵守道德和法律标准以及隐私法律法规（例如，美国的医疗保险便携性和责任法案和欧盟的通用数据保护条例）。这些挑战导致了直到最近，自由可用的ICU数据库仅来自美国。

操作层面上，研究问题应决定数据集的选择。数据集在队列大小、数据粒度、治疗强度和结果方面有显著差异。为了促进模型的普适性，至少应使用两个不同的数据集。如果这些免费数据库能够以使用标准词汇的通用数据模型提供，那么这种外部验证的一个障碍将被消除；最近将MIMIC-IV数据集映射到观察性医疗结果合作伙伴关系（OMOP）通用数据模型的努力是这一努力中的重要第一步[6]。美国以患者为中心的协作医院存储库联合标准（CHoRUS）为公平的人工智能启动了一个协调的、地理多样化的、大型多领域ICU患者数据集的生成，包括EHR、文本、图像和波形数据（bridge2ai.org/chorus）。这个面向公众的数据集很快将可用，以补充现有的数据库，并增加显著的多样性优势。或者，基于R的重症监护单元数据（RICU）和另一个ICU基准（YAIB）为联合分析重症监护数据集提供了机会。这些数据集的另一个限制可能是它们仅限于ICU数据。

尽管ICU数据集的数量有限，但这些免费提供的重症监护数据集所支持的优秀建模工作揭示了一个严重的转化差距，将这些模型在床边实施并证明改善患者结果非常具有挑战性。

数据库起源的偏见以及模型验证/治理

在利用现有的电子健康记录（EHRs）构建人工智能临床决策支持系统（AI-CDSS）并使用真实世界数据的准确性来评估这些模型时，存在一个根本性缺陷，这是因为数据库中存在的健康差异。这种情况为算法中编码结构性不平等设置，从而合法化了它们的存在，并在数据驱动的医疗保健交付系统中延续了这种不平等设置。数据生成过程的社会模式和社会护理决定因素。数据生成的社会模式涉及患者在医疗保健接触中如何被代表为数据。在一个理想的世界里，每个人都应该以“公平的方式”得到照顾。但现有的EHRs因为捕捉患者及其护理的方式而存在偏倚。这些偏倚被AI反映，并可能在模型开发和部署过程中被加强。此外，基于主要偏向白人患者的EHR数据构建的模型可能无法很好地模拟非裔美国人、西班牙裔或亚裔患者的病情。需要代表AI-CDSS所针对的患者群体人口统计特征的EHR数据库。

为了避免AI合法化和AI加剧的对疾病和社会不平等已经过度负担的群体的进一步边缘化，需要监管护栏。这些护栏将是通过与过度负担、边缘化或未被代表的社区持续开放对话和参与而开发的政策和/或激励结构。除非机器学习社区优先考虑“谁”——谁在开发和部署AI——以及“如何”——是否有负责任的AI的透明度和问责制——否则这些CDSS努力将不那么有效。

设计用于情境感知的临床决策支持系统

情境感知（SA）是航空和医学等领域决策和行动的基础。强大的情境感知是做出明智决策的先决条件，这些决策能够识别环境中的相关元素，理解它们的含义，并预测它们的短期进展。情境感知的失误是安全相关事件和事故的主要原因。情境感知不断演变，受外部环境变化和个人内部因素的影响。繁重的工作量和疲劳以及心智能力的下降可能会阻碍临床医生在重症监护环境中实现和维持情境感知。相比之下，在特定情境中拥有丰富的经验可以增强SA，因为熟悉度指导了应该关注什么。设计良好的CDSS应该提高情境感知。

目前，基于AI的CDSS将与人类决策者一起工作，而不是作为自主支持系统。这样的CDSS应该尽可能快地将关键信息传递给决策者，并且尽可能减少认知负担。为了成功实施AI-CDSS，需要以用户为中心、以情境感知为导向的设计。在复杂和动态的环境中，AI-CDSS的设计应该让员工能够清楚地掌握信息，减少他们的工作量，并增强他们对诊断的信心，重要的是，这些方面促进了员工的接受和信任，最终决定是否实施AI-CDSS。

在正确的健康AI和实践中的实施之间存在很大的差距。在医疗保健中构建和部署AI预测工具并不容易。数据是混乱和具有挑战性的，创建能够整合、适应和分析这类数据的模型需要深入理解最新的ML策略，并有效地运用这些策略。目前，只有少数基于AI的算法在临床研究中显示出改善临床医生表现或患者结果的证据。所谓AI鸿沟的原因包括缺乏将工具转化为实践所需的专业知识、缺乏转化资金、对临床研究作为转化机制的低估、忽视临床评估早期阶段和人类因素分析的潜在价值，以及报告和评估不足。

存在用于进行严格评估的最新工具和最佳实践。例如，由人工智能驱动的决策支持系统的发展和探索性临床调查（DECIDE-AI）指南提供了一个可操作的最小报告项目清单，有助于评估CDS研究及其发现的可复制性。AI-CDSS的早期临床评估也应该强调性能和安全的验证，类似于药物试验的第1和第2阶段，然后在第3阶段进行大规模的功效评估。算法训练和临床评估人群之间的底层数据分布（即数据集偏移）的微小变化可能导致临床性能的显著变化，并将患者暴露于潜在的意外伤害。在安全关键领域，如航空、军事和能源部门，通常进行人类因素（或人体工程学）评估，评估设备或程序对用户身体和认知表现的影响。然而，很少有临床AI研究报告了人类因素的评估。FDA最近发布了“人工智能和机器学习（AI/ML）软件作为医疗器械行动计划”，概述了他们的方向，国家医学院宣布了AI行为准则，但仍需要做更多的工作。临床AI算法应该像接受临床试验的药物和医疗设备一样受到严格的审查。

在急诊医疗环境中弥合实施差距

及时的干预需要早期和准确地识别可能从中受益的患者。与重症监护相关的两个突出例子是使用现成的电子健康记录（EHR）数据模型，这些模型能够准确预测临床恶化和败血症的发生，提前数小时预警；这些模型体现了实时临床决策支持系统（CDSS），能够提醒临床医生并促使评估、测试和干预。将这些方法转化为临床干预研究已经改善了结果。尽管这些系统早期显示出承诺，但必须解决重要的技术和社会障碍以确保它们的成功。确实，前面描述的医疗人工智能的“实施差距”扩展到了预测临床恶化和败血症CDSS。

大多数CDSS开发始于回顾性数据；这些数据通常与生产环境中的EHR数据在质量和可用性上有所不同，这可能在实施过程中降低模型性能。此外，基于EHR数据的结果标签通常是现实世界结果的代理。在实时中不可用的不精确的回顾性定义，如账单代码，可能会使结果标签的有效性复杂化。

临床恶化和败血症CDSS模型因其高辨别力而成为头条新闻。虽然辨别力很重要，但需要更细微的理解来判断一个模型是否“足够好”，以用于个体患者的决策。即使辨别力高，为警报选择的阈值可能导致敏感性不足或过多的假警报。在敏感性与假警报和警报的提前时间之间保持平衡仍然是一个持久的挑战，最佳平衡因用例而异。此外，必须测量和解决不同设置、病例组合和时间之间的性能变化。在模型实施之前，评估模型在社会经济群体中的公平性是另一个关键考虑因素。

信息技术基础设施和专业知识对于有效实施CDSS也至关重要。供应商越来越多地提供专有的“交钥匙”CDSS解决方案，用于识别临床恶化和败血症。虽然方便，但限制包括透明度和性能不一致、用户体验限制和机会成本。替代方法可能会提高性能，但通常需要大量资源，并且可能更容易受到“修复”问题和其他挑战的影响。

CDSS实施的社会挑战是巨大的。成功的实施需要了解预期用户、他们的工作流程和资源，以及这些应如何根据CDSS输出变化的愿景。实施科学方法提供指导。形成性工作可能使用决定因素框架和逻辑模型来理解CDSS旨在影响哪些行为，从而通知临床工作流程。

努力理解预期用户的需求可能会提高信任并促进采用。模型的可解释性也提高了信任和CDSS的采用。许多“黑箱”ML模型的高复杂性可能会阻止临床医生在输出与临床直觉不一致时重视CDSS信息。提高可解释性的现代方法包括SHapley Additive exPlanations，这是一种基于博弈论的模型不可知方法，用于可视化预测变量对模型输出的贡献。实时CDSS的用户界面设计需要人类因素的专业知识，可能受到供应商软件能力的限值，并且可能需要遵守政府机构的监管指导。

CDSS必须与衡量对患者和临床医生重要事物的能力相结合。实施科学的评估框架可能促进CDSS评估，捕捉效果和效能的元素。实施评估的研究设计选择将取决于可用资源、当地因素和临床问题。与前后设计或与历史对照的比较相比，务实的随机试验和准实验设计提供了优势。

有效采用基于AI工具的路线图

将人工智能（AI）整合到医疗保健中需要细致的计划、积极的各方利益相关者参与、严格的验证和持续的监控，包括对采用情况的监控。遵循软件开发原则并涉及最终用户，可以使临床决策支持系统（CDSS）确保成功采用，最终提高患者护理质量和增强运营效率。采用动态方法，定期评估和完善AI技术，对于将其与不断演变的医疗需求和技术进步保持一致至关重要。创建数据卡片是这个过程中非常有用且富有洞见的第一步，数据卡片是关于机器学习（ML）数据集各个方面的基本事实的结构化摘要，这些事实是项目生命周期中各利益相关者负责任地开发CDSS所需的。图1将本文讨论的问题总结为有效完成CDSS的路线图，表2详细列举了高效CDSS推出过程中的障碍和潜在解决方案。

这张路线图为医疗保健机构提供了一个框架，以确保AI工具不仅被开发出来，而且能够在实际中得到有效应用。它强调了从规划到实施再到持续改进的全过程的重要性，确保AI技术能够在提高患者护理质量和运营效率方面发挥其潜力。通过识别和解决实施过程中可能遇到的障碍，医疗机构可以更有效地利用AI工具，为患者提供更好的护理。

有效采用AI技术的关键步骤

指定负责人

拥有一个明确的负责人对于定义AI技术旨在解决的问题以及监督设计和部署至关重要。在试点阶段之前涉及更广泛的利益相关者同样重要。这种包容性方法鼓励在全面部署前提供早期反馈和洞察，增强潜在采用并确保在整个试点部署过程中与负责人有效沟通。让一个代表性的利益相关者团队参与进来，可以加深他们对技术及其无缝集成到现有工作流程的理解。这种参与应包括医疗专业人员、临床医生、患者、护理人员和临床工作流程中的其他利益相关者。利益相关者早期和积极地参与设计过程，确保技术与其预期目标一致，顺利融入既定的医疗流程，并及早预防安全风险和偏见。

用户接受测试

用户接受测试（UAT）是软件资格认证过程中的关键步骤，最终用户在这一步骤中严格评估技术的功能，对于CDSS而言，还包括与模型输出的一致性。这可以通知假阳性和假阴性风险。这种评估确保技术符合他们的特定需求和期望。用户接受测试阶段为需求、集成选项和基于这些需求的AI-CDSS输出验证提供了宝贵的见解，并显著促进界面设计改进。可以进行人因研究以证明技术的可用性。在测试阶段也可以使用可用性因素和实证措施。通过让最终用户参与测试，大大促进了技术满足其预期用途，并培养了所有权感，使最终用户更深入地理解技术如何融入他们的工作流程，进一步提高了整体效果。在AI-CDSS引入工作流程之前，根据需求调整的培训可以促进AI-CDSS的接受和使用指导。

衡量和监控AI技术的采用

有效衡量和监控AI技术的采用对于评估其在现实世界中的有效性和确定改进领域至关重要。利用定量指标，如跟踪界面交互（如按钮点击），提供用户参与度数据，揭示使用模式。同时，调查和定性访谈、焦点小组和直接观察提供了对用户体验和感知的更深入了解。这种双重方法使医疗机构能够根据用户满意度和反馈优化技术。它还为最终用户提供了一个表达安全关切和更广泛问题的途径。实际部署需要一个持续的反馈机制，因为最终用户可能会覆盖建议的行动或决策，或者不同意AI-CDSS的输出。这种反馈应系统地与开发团队或相关组织共享，捕捉对技术输出和推荐决策或行动的一致性信息。这个过程类似于在临床试验中记录协议偏差，应包括任何安全关切或其他问题，如偏见。应在护理点记录对不一致的全面根本原因分析以及缓解策略，提高技术的整体安全性和有效性。

从试点阶段过渡到普遍部署

从试点阶段过渡到普遍部署标志着AI采用的关键阶段。成功的试点部署作为更广泛采用的跳板。人类信任是一个重要因素，对AI的进一步教育和透明度信息可以为临床医生和患者建立这种信任。识别和利用医疗系统内的技术倡导者可以深刻影响技术价值的传播。这些倡导者在沟通活动、培训和促进向广泛部署的无缝过渡中发挥着至关重要的作用，确保全面理解技术的好处。

治理和监管考虑

人工智能（AI）的快速发展，特别是利用先进的大型语言模型的公开可用生成型AI应用的发布，极大地加速了关于AI在社会和医疗保健中部署的承诺和陷阱的讨论。对AI开发和部署的担忧加剧了关于如何确保AI与人类目标和利益保持“一致”的讨论。因此，各种区域性、联邦和国际管理机构正在起草一系列快速演变的法规，预计在未来三年内将正式化，如世界卫生组织关于AI伦理和治理的报告以及欧盟关于医疗保健中的AI：应用、风险以及伦理和社会影响的报告。在美国，白宫的AI权利法案：使自动化系统为美国人民工作；国家标准技术研究院的人工智能风险管理框架；以及食品药品监督管理局关于软件作为医疗器械和临床决策支持设备的指导原则也是如此。这些文件强调了几个安全AI的主要原则，包括技术应该：不造成伤害；安全；准确；无偏见和歧视；保护隐私；对最终用户清晰易懂；持续监控；并解决使用同意问题。这些原则与有效、安全和公平的医疗保健交付紧密相关，但鉴于AI依赖于快速发展和日益复杂的算法基础，AI带来了新的挑战。

AI劳动力

AI的快速增长加速了多个科学领域的发现，并影响了每一个工作环境，以前所未有的速度和规模重塑劳动力市场，预计全球40%的劳动力将需要AI，增强了对显著AI技能提升或再培训的需求。AI在医疗保健和临床研究中的快速采用是一个机会，可以转变我们发现、诊断、治疗和理解健康和疾病的方式。美国医学协会支持这种人机合作的愿景，通过将AI缩写重新定义为“增强智能”。AI增强的临床护理需要一个懂AI的医疗劳动力，但目前我们在医疗领域特定的AI应用中缺乏足够技能的工作者。许多生物医学和临床科学领域的专家缺乏对AI系统和方法论的基础理解。目前没有足够的机会进行临床医疗和研究的快速AI培训。AI工具和系统需要的操作背后的数学或技术知识越来越少，与美国食品药品监督管理局（FDA）将AI算法授权为“软件作为医疗器械”的过程一致。由NIH共同基金项目（AIM Ahead和Bridge2AI）证明，存在一个普遍承认的AI培训缺口，需要可访问和可扩展的AI技能提升方法，以帮助培养第一代准备好使用AI的医疗保健提供者。

未来的ICU劳动力将需要专门的AI重症护理培训，优先考虑概念性的AI框架和高层次的分类学，而不是编程和数学。临床医生必须了解相关临床AI模型的适应症和禁忌症，包括解释和评估与特定AI工具相关的已发布模型和培训数据表的能力，跨越不同的人口群体。重症监护中的AI培训计划还必须足够灵活，以适应AI格局的快速变化。最后，这些计划应该向学员灌输对偏见、公平性、信任、可解释性、数据来源和责任及问责制的基本工作知识。

AI研究者的多样性必须反映他们服务的多样化人群。在性别、种族和民族方面存在显著差距。缺乏多样化视角可能会对结果产品产生负面影响，正如AI领域多年来所困扰的那样。2022年人工智能指数报告指出，80%的专门研究AI的新计算机科学博士是男性，57%是白人，自2010年以来这一比例没有显著变化。因此，迫切需要全国性的学术工业合作培训项目，以资助、开发和指导多样化的AI研究者，确保生物医学研究中的AI公平性。

结论

人工智能（AI）时代已至，并将继续存在。它将渗透到重症医疗的实践中，并且具有巨大的潜力来支持临床决策、减轻临床负担、教育临床医生和患者以及拯救生命。然而，尽管这项复杂、多面且快速发展的技术将重塑医疗保健的提供方式，但它也带来了必须及时解决的深刻的伦理、公平和治理问题。

本文荟萃自，只做学术交流学习使用，不做为临床指导，本文观点不代表数字重症 ICU.CN立场。