人工智能在重症监护室中的应用

介绍

    随着监护水平的提高,重症患者的临床结局已显著改善。但是,传统的重症监护仍然存在局限性。重症监护医学已经有高级监测系统以及各种非侵入性和侵入性治疗方法,为患者提供及时干预。这种系统的融合是否代表下一步床边监护的改善,可能性未经证实。

人工智能(AI)的简化概念是为了允许计算机在多域和多维数据的复杂环境中找到模式,并以其他方式识别出这种模式。以前在现实生活中应用该概念需要大量的计算时间和资源。这只能在有限的领域包括物理或天文学中可行。但是,随着计算能力指数增长,许多领域的AI可以使用,包括数据庞大,复杂的重症医学。

越来越多的临床研究正在使用AI驱动模型来利用重症监护病房(ICU)中的数据进行,但是我们对重症监护医学中AI的功能和实用性的理解仍然是浅显的。此外,在成为我们日常临床实践的核心组成部分之前,AI有许多缺陷。在本文中,我们试图介绍AI的作用,并有可能改变ICU中常规实践模式的景观,描述当前的优势和缺陷,并考虑重症监护医学的未来。

AI在重症监护中的应用

疾病鉴别

通常,从众多的鉴别诊断中找到临床恶化的根本原因具有挑战性,由于疾病早期的隐匿特征或共存条件存在掩盖了主要问题。这是一项具有挑战性的任务,例如,不能简单地假定肺浸润代表过度的肺泡液。它可以来自心脏原因,胸腔积液,炎症或感染,或者在某些情况下因创伤而导致的肺水肿。没有结合临床情况和进一步的测试,就可能延迟适当和及时的管理。鉴于先进的文本和图像处理能力,AI可以通过获得更精确的诊断来帮助这种情况。通过机器学习模型充血性心力衰竭(CHF)可以与其他肺部疾病区分开,以及继发于CHF的肺水肿的量可以通过使用变异自动编码器的半监督机学习来量化。

人工智能在重症监护室中的应用

在严重的急性呼吸道综合征冠状病毒2(SARS-COV-2)大流行期间,使用AI模型处理了入院患者的成像数据,以检测2019年冠状病毒病2019(COVID-19)。随着神经网络对图像分割和量化病变的最新努力,一种算法,尤其是在解释图像方面的算法,可以评估头部计算机断层扫描(CT)上的创伤性脑损伤(TBI)的准确性。同样,使用多尺度神经网络对创伤性疾病进行了定量可视化和测量。

疾病进展预测

    疾病检测和疾病进展的  预测对危重患者很重要。鉴于疾病过程是连续的,临床状况不稳定甚至在ICU入院之前可以采取措施,在经历呼吸循环不稳定(定义为低血压,心动过速,呼吸窘迫或低血氧饱和度事件)的患者中,使用随机森林分类的动态模型表明,个性化的风险轨迹可预测到恶化前90分钟。

在ICU中,病情迅速恶化是常见的,并且结果可能是不可逆转的,如果处理延迟可能导致死亡。因此,正在努力预测这种血流动力学代偿性。 心动过速,是休克前最常见的偏离正态性的偏差之一,随机森林模型使用归一化动态风险评分轨迹在发生前75分钟预测,在手术室中也预测到了低血压是休克的表现。

在一项中等和高风险手术的患者中,一项随机对照试验进一步证实了机器学习模型在减少运动内低血压方面的实用性,通过AI驱动的干预措施1.2%的患者发生了低血压,而使用常规方法21.5%的患者发生了低血压。在ICU中还预测了低血压事件,使用电子健康记录(EHR)以及生理数字生命体征数据,通过随机森林模型预测临床相关的低血压事件,达到92.7%的灵敏度,事件发生前15分钟,曲线下的平均面积为0.93。

缺氧和呼吸窘迫也是预测的主要目标,在最近的冠状病毒大流行期间,其作用已经扩大。在大流行的头几个月中,使用成像,生物学和临床变量,使用AI驱动的模型来预测Covid-19的进展。还使用电子心脏骤停风险分类(ECART)得分从EHR数据中预测了心脏骤停,与传统的的预警评分系统相比,未有明显差异。还可以预测脓毒症,使用Weibull-Cox比例危害模型在高分辨率生命体征时间序列数据和临床数据上的AUC为0.85。可以使用AI模型预测其他临床结果,包括TBI后死亡率或COVID-19具有不同风险特征的患者的死亡率。

疾病表型

重症疾病很复杂,很少有典型表现。相反,重症疾病以许多不同的方式(固有的异质性)表现出来,并带来了器官功能障碍的重大风险,随后可能使潜在的疾病过程或恢复过程复杂化。如果不仔细考虑给定个体的潜在病因或临床状况,则不应盲目治疗此类综合征。此外,复杂的危重状态会随着时间而变化,因此,临床医生不能依靠几个小时前的评估。然而,每当存在时,都应遵循基于证据的准则。AI凭借其具有强大的模式识别能力,可以描绘出独特的表型或内型,这些表型或内型可以反映出来自临界状态的影响,从而开放了个性化管理的途径,并将其整合到现有指南中。

脓毒症是ICU最常见的疾病之一,是一种综合征,一直是AI算法的靶标。最近使用不同的临床试验队列,通过共识K-均值将脓毒症聚集在四种表型(α,3,γ和6)中,这是一种无监督的机器学习模型。表型具有独特的人口统计学特征,不同的生化表现,与宿主反应模式相关,并最终与不同的临床结果相关。这种表型具有描述性,可用于描述案例混合并可以代表预测临床试验的预测目标。但是,它们并不是基于机制的这个理论,因此在治疗上不可行。然而,使用更丰富数据的进一步探索可能允许更大程度的可操作性。

在急性呼吸窘迫综合征(ARDS)中,潜在类别分析(LCA)显示两种亚型(过度炎性亚型)与不同的临床特征,治疗反应和临床结果相关。使用较小的分类器变量(白介素[IL] -6,-8),蛋白C,可溶性肿瘤坏死因子(TNF)受体1,碳酸氢盐和加压素)开发并实现了与初始LCA相似的性能。该结果在三个不同的随机临床试验的次级分析中得到了验证。这个机器学习驱动的ARDS表型丰富了我们在评估和治疗复杂疾病方面的知识,并成为预测未来临床试验的标准之一。

用于预测临床恶化的动态表型可以在时间序列数据上进行。使用1/20 Hz生命体征数据分析,使用K-均值,在明显的心脏呼吸恶化之前确定几种独特的表型,包括早期发作和晚期发作恶化(图2)。图像的时间序列可以聚集动态表型,通过使用经食管的超声心动图监测图像在脓毒性休克患者中进行:使用分层聚类方法,脓毒性休克分为三种心脏恶化模式和两种对干预措施的反应,与临床结果和ICU死亡率有关。

人工智能在重症监护室中的应用

指导临床决策

对于一个复杂的问题,单一的解决方案无法处理好。在过去的十年中,研究未能通过不同的治疗指南改善脓毒性休克的结果。脓毒性休克的异质性,各种潜在条件,AI至少可以部分解决不同的宿主响应,以使用强化学习提供个性化的解决方案。强化学习中的算法旨在检测给定状态下的许多变量以构建动作模型,然后从动作结果中从奖励或惩罚中学习。将此应用于脓毒症人群,强化学习可以为脓毒症治疗提供最佳的决策解决方案,从而展示了AI对生成个性化解决方案的潜在影响。在接受机械通气的患者中,与标准临床监护相比,提取了具有44个功能的时间序列数据,并进行了增强学习(马尔可夫决策过程),其目标结果为90天和ICU死亡率。这些例子证明了人工智能在指导危重病人做出重要决策方面的作用。人工智能的治疗效用的概念在不同的临床环境中可能会更加明显和具有挑衅性,比如在临床医生缺乏或患者无法转运、资源有限的偏远地区的重症抢救。由于此类治疗建议的最佳性是通过回顾性和观察性数据计算得出的,因此在临床实施之前,必须对源自此类人工智能系统的建议序列或政策进行全面分析,然后进行前瞻性测试。

实施

人工智能在床边的成功与否一个重要的因素取决于系统的可用性和可靠性。此类系统的部署应涉及所有参与者,包括临床医生和患者、研究人员和医院管理人员(后勤和管理)。在具体的研究项目中,实施策略需要创建具有足够数量信息的模型,以可理解(可解释)的逻辑,并放置在视觉上吸引人的车辆或仪表板上—一个图形用户界面。当这些系统被部署为警报工具时,必须足够准确,以防止警报疲劳,从而导致延迟检测、干预正在发生的危机。在最近关于ICU预测老年人低血压的研究中,研究人员发现,当他们使用堆叠随机森林模型,或在生成警报之前检查另一个模型时,人工智能生成的警报可以减少10倍,同时保持灵敏度。

理解人工智能衍生的预测和建议可以说是人工智能在床边接受的一个重要组成部分。虽然复杂的模型可以被认为是“黑匣子”,但为了提高模型的可解释性,人们正在付出巨大的努力。例如,在最近一份关于缺氧检测的报告中,研究人员采用了博弈论的概念,在手术期间对不同体重的生理读数进行预测,试图从人工智能系统解释缺氧报警的临床驱动因素。创建图形用户界面不仅对于将AI输出传送到床边,还可以改善医院工作流程,减轻护理负担。正如最近的工作所示,深度学习可以用来从面部、姿势和姿势分析基准点,患者的行为,以及从环境刺激中区分谵妄和非谵妄ICU患者。未来的重症监护室设计应该包括人工智能解决方案的功能使临床医生能够对任何潜在的恶化做出更早的反应,研究人员能够使用更全面的数据构建性能更好的模型,并以一种易于获取、高度准确且受床边临床医生信任的方式呈现。

人工智能的缺点

      尽管人工智能模型的能力改变了数据分析的现状,并在协助早期诊断和管理方面发挥了重要作用,但在为危重患者引入人工智能模型时,存在许多不应忽视的障碍。

解释及可解释性

       许多人工智能模型都有复杂的节点层次,使输入数据的特征在揭示隐藏模式方面更有意义。虽然模型可能通过该过程产生看似准确的输出,但通常无法向用户最终提供计算的基本原理。在临床环境中,这可能会对在日常实践中接受人工智能模型产生强烈的抵制,因为临床医生担心,在没有科学证据支持的情况下进行不必要的干预或改变治疗策略,可能很容易违反患者治疗的第一条规则,即不伤害原则。在重症监护医学中,这样的举措可能直接且迅速地与死亡率相关。另一方面,许多新疗法在医学史上首次引入时没有足够的证据,“黑匣子”模型不需要完全破译,提倡使用固有的可解释人工智能。最近的另一种方法认为,为模型验证、分析的稳健性、成功/失败实施的例子以及专家知识提供详细的方法,可以缓解认识论和方法论方面的担忧,并获得可靠性和信任。

为了克服进一步学习模型的复杂性,已经进行了多方努力。在预测手术期间的短期缺氧事件时,利用博弈论测量特征重要性,在动态时间序列数据集上解释特征贡献成为可能。在该报告中,SHapley加法解释(SHAP)解释的贡献特征与文献和麻醉师对即将到来的缺氧风险的预测一致。此外,在可解释的人工智能模型的帮助下,麻醉师能够做出更好的临床决定,以防止术中缺氧。

缺乏稳定

        由于缺乏足够的临床实验和试验,人工智能在现实临床环境中的可用性受到限制,重复性和前瞻性分析的比率低得令人失望。在最近一次对172个人工智能驱动的解决方案的审查中,人工智能的临床准备水平很低,这些解决方案是根据常规收集的图表数据创建的。在该研究中,人工智能的成熟度被分为九个阶段,与实际应用相对应。引人注目的是,约93%的分析文章仍处于第4阶段以下,没有外部验证过程,只有2%的已发表研究进行了前瞻性验证。因此,目前危重病治疗医学中的人工智能模型主要是使用回顾性数据生成的,没有外部验证或前瞻性评估。

人工智能解决方案的再现性没有保证,也没有明确的协议来彻底考查这一点。如上所述,人工智能解决方案在数据开放性和几乎无法解释的算法复杂性方面已经存在局限性,因此除这些因素外,缺乏再现性可能会显著影响人工智能模型的保真度。最近的一项研究试图使用重症监护医疗信息集市(Mick-III)数据库重现28个死亡率预测项目的38个实验,并报告了大约一半实验中的大样本量差异。这个问题突出了准确标记、了解临床背景以创建研究群体以及精确报告方法(包括数据预处理和特征化)的重要性。

遵守报告标准和偏差风险也是必要的,因为一项使用深度学习分析81项非随机试验和10项随机试验的研究显示,81项非随机试验中只有6项在现实世界的临床环境中进行过测试,72%的研究显示出高偏差风险。因此,考虑到证明科学假设所需的常规随机对照试验的科学严谨性,人工智能驱动模型的成熟度和稳固性在日常实践中就更不具有说服力。

更复杂、更先进的人工智能模型,比如强化式学习,也不是没有挑战,因为这种复杂的模型需要大量计算资源,且很难在患者身上进行测试以便在临床环境中训练或测试模型。推断回报信息的反强化学习可能是一种新的模型、无关强化学习方法,因为这种方法减轻了手动设计收益函数的压力。有了这些算法上的进步,当输入数据发生变化时,决策辅助可以变得更加有力可靠,这可能是重症监护数据科学的一大资产,因为在重症监护数据科学中,数据的数量巨大且极为多样性。

伦理问题

   人工智能在重症监护中的应用对大多数研究人员和临床医生来说仍然是一个新领域。在人工智能开发渠道和临床应用中得到更广泛的应用之前,我们不会真正理解我们将遇到什么样的道德伦理问题。然而,考虑到人工智能特征的性质和当前人工智能驱动的解决方案,可以讨论几个方面,以便在关键治疗中观察人工智能模型可能面临的道德困境。第一个问题是数据隐私和共享。数据科学的创新使我们能够收集和处理数据,以发现隐藏的模式,在此过程中,数据泄漏可能会造成威胁,尤其是在预处理和外部验证步骤中。一旦人工智能模型已经使用了单个数据点,就很难从数据集中删除它们。身份识别和平行/分布式计算可以为数据管理提供一些解决方案,包括联合学习在内的新模型可以最大限度地减少数据泄漏,并可能加快多中心验证过程。

伦理学的第二个问题是人工智能模型的安全性。为了半定量地描述模型的安全性,利用自动驾驶汽车使用的类似熟练度指标用于人工智能驱动解决方案的临床适应性,有6个级别:0(非自动化)到2(部分自动化)代表人类驾驶员监控环境的情况;3(条件自动化)到5(全自动化)表示系统监控环境而非任何人类参与的情况。根据这一规模,如果在现实生活中使用,大多数人工智能驱动的解决方案将分为1类或2类。这个概念意味着人工智能模型的安全性和责任性不能盲目地得到保证,临床医生的决策仍然是患者治疗的一个组成部分。此外,个体患者的自主性从未像现在这样重要,包括获得知情同意或表达在危及生命的情况下接受治疗的愿望。人工智能的建议可能与患者的建议不一致。认识到这些道德问题,准备潜在的解决方案以克服人工智能的局限性,以及更多地了解患者的观点,可以让研究人员和临床医生开发出更实用、更道德的人工智能解决方案。

人工智能在重症监护中的未来任务

数据去识别/标准化/共享策略

      与任何其他临床研究一样,人工智能解决方案需要从许多不同角度进行验证。外部验证使用来自其他环境的输入数据,是概括模型的最常见方法之一。尽管外部验证和前瞻性研究设计确实需要协作数据资源和协同一致的努力,但为重症监护中的人工智能研究创造这样一个健康的生态系统需要大量的基础工作。

取消对医疗数据的识别可能是确定数据隐私和可用性的第一步。危重病医学会(SCCM)/欧洲重症监护医学会(ESICM)联合数据科学工作组发布了从不同来源数据库创建大型数据库的过程,包括以下步骤:(1)使用匿名阈值,将个人数据与匿名数据分离;(2)重复的、基于风险的个人数据识别流程;(3) 确保隐私和法律考虑遵守《欧洲通用数据保护条例》(GDPR)的外部审查程序。这种识别过程将确定安全的数据传输,并进一步促进高质量人工智能模型培训。

多中心协作的其他重要基础是数据标准化。各个医院系统在不同的EHR层次上开发了许多不同的数据标记策略。即使在同一个医院系统内,微小的差异,包括小数位数、常用缩写和图表中的数据顺序,也可能成为系统数据标准化的绊脚石。此外,更高粒度的数据(包括生理波形数据)更难标准化,因为没有以结构化方式表示值的区分标签。为了解决这个问题,国际研究人员开发了一种标准化格式,以促进临床和生理数据的有效交换。在这种基于分层数据格式版本5(HDF5)的重症监护数据交换格式中,可以实时存储、压缩和传输多参数数据。这种类型的数据交换格式还允许集成其他类型的大规模数据集,包括成像或基因组学。

虽然不能完全消除数据隐私和管理方面的担忧,但当这些问题不那么严重时,可以促进快速协作。举个例子:联合学习,模型可以被设计为送到本地中心进行培训,而不是从参与中心收集到一个中心位置进行模型培训的数据。虽然数据没有直接暴露在外部环境中,但该模型仍然可以由外部数据集进行训练,具有类似的功效和性能。当不同中心之间的数据分布不平衡或倾斜时,联合学习可能会更加有用,这表明了现实世界的协作环境。在2019冠状病毒疾病大流行期间,开展了一项全面的联合学习项目。在全球范围内,20个学术中心通过在强大的云计算系统中构建联合学习,协作预测2019冠状病毒疾病的临床结果。在研究阶段,研究人员开发了一个AI模型,利用胸部X光数据预测有症状的2019冠状病毒疾病患者未来的氧气需求,然后将其送往医院。使用共享的部分模型对训练后的模型进行校准,然后生成平均的全局模型,同时在每个医院系统中保留隐私。通过这种方式,人工智能模型在预测24-72小时预后方面的平均AUC>0.92。此外,与应用于单个中心的预测模型相比,使用联合学习对模型进行测试时,平均AUC提高了约16%,可推广性提高了38%。本报告举例说明了基于联合学习的协作方法的潜在作用,尽管源数据(胸部X光片和其他临床数据)对于联合学习系统来说相对容易标准化。

新型人工智能模型和试验设计

       为人工智能模型标记目标事件是一项艰巨而费力的任务,需要大量资源。为了提高任务的效率,人们引入了新的人工智能模型,如部分监督学习。部分监督学习只需要领域专家的部分参与就可以建立所需的标记,并且可能会保留资源使用。其中一个例子是,使用医学本体论和专家驱动的规则,对出现2019冠状病毒疾病相关症状的急诊患者执行弱监督分类任务。当基于本体的部分监督与预先训练的语言模型相结合时,创建分类器的工程成本比简单的部分监督学习要低得多,与有大多数票数的分类器相比,表现出了更好的性能。结果表明,这种人工智能模型可以在短时间内使非结构化图表数据可用于机器学习输入,而无需在大流行期间进行专家标记过程。未来的临床试验也可以使用人工智能模型进行设计,尤其是为了最大限度地提高参与者的利益,最小化参与者的风险,以及充分利用有限的资源。这种创新设计的一个例子是REMAP-CAP(社区获得性肺炎的随机嵌入式多因素平台),它采用了贝叶斯推理模型。具体而言,这项多中心临床试验允许进行随机分组,并进行强有力的因果推断,在多个患者亚组中创建多个干预支,提供反应适应性随机化和优先分配,并提供了一个新的平台,在最初治疗的评估之外进行持久登记。该平台最初是为确定社区获得性肺炎的最佳治疗而开发的,在整个2019冠状病毒疾病大流行期间继续登记,并有助于提高2019冠状病毒危重患者的生存率。

实时应用程序

      为了在现实生活中建立一个有价值的人工智能系统,模型应该能够及时传递重要信息。对于危重病人,反馈时间应该非常短,有时不到几分钟。过早做出的预测会有足够的时间来构建模型,但预测能力较低;而非常接近目标事件的预测将有更高的性能,但没有时间整理输入数据并运行模型以进行输出。

要在现实环境中使用,实时人工智能模型应该配备一个非常快速的数据预处理平台,并且能够节省成本,同时用新的输入数据以更新模型。输出也应迅速送到床边。在严格意义上的实时性,几乎没有临床研究完成实时预测。少数文章声称实时预测,但大多数使用回顾性数据,未能演示无延时的连续实时数据预处理。一项研究从一个大型回顾性数据集中显示了脓毒症发病的动态“实时”风险。ICU住院时间分为三个阶段(0-9小时、10-49小时和超过50小时的ICU住院时间),根据不同的脓毒症发病事件进行划分,并在每个阶段得出不同的效用评分。虽然这为不同ICU住院时间的人工智能模型的不同性能提供了有价值的信息,但没有证明使用无延时的连续实时预处理。另一项对重复神经系统术后生理生命体征数据的研究得出了高阳性预测值0.90,预测死亡率的灵敏度为0.85,在预测死亡率和其他并发症方面优于传统指标。该研究还表明,人工智能解决方案和传统方法之间的预测差异从ICU住院开始就很明显。然而,从ICU住院的最早阶段进行预测也不符合真正的实时预测。虽然这对目前的技术来说是一项具有挑战性的任务,但将实时人工智能模型应用到重症监护环境中,可以在没有时间延迟的情况下在接下来的诊断或治疗选项中产生显著的益处。

模型调度后的质量控制

      一旦人工智能模型实现了高性能,并被认为在现实临床环境中有用,就应该遵循实施策略和质量评估工作。美国国家医学院(National Academy of Medicine of the United States)已经发布了一份关于人工智能在医疗保健中的应用的白皮书,在白皮书中,作者竭力主张更安全、更有效和个性化的医疗制定指导方针和法律条款。尤其是对于人工智能解决方案的成熟度及其与医疗保健的整合,作者建议摒除偏见,结合透明和信任度,开发和部署适当的培训和教育,避免人工智能解决方案的过度监管或过度立法。

结论

        人工智能模型的快速发展和实现,仅次于计算能力的空前增长,这为包括医学在内的许多领域的研究注入了活力。危重病医学中的许多研究课题都使用人工智能的概念,从极其多样的临床数据集中识别隐藏的疾病模式。人工智能模型在疾病检测、表型分析和预测方面提供了有用的解决方案,可能会改变关键疾病的病程。当存在多种治疗方案时,它们也可能获得最佳的个性化治疗策略。然而,在现阶段,人工智能解决方案的开发和实施面临许多挑战。首先,如果没有适当的基础,包括身份识别和标准化,数据概括是很困难的。其次,人工智能模型并不稳健,对报告标准的遵守程度不理想,存在高偏差风险,缺乏再现性,并且没有使用开放数据和透明模型架构进行适当的外部验证。第三,人工智能模型具有隐蔽性和概率性的特点,可能会导致不可预见的伦理道德困境。为了在未来将人工智能成功应用于临床实践,需要开展协作研究,制定数据标准化和共享计划,开发高级模型以确保数据安全性、实时应用和质量控制。

本文荟萃自,只做学术交流学习使用,不做为临床指导,本文观点不代表数字重症立场。

(0)
打赏 微信扫一扫 微信扫一扫
Chu的头像Chu
上一篇 2022年5月25日 上午10:41
下一篇 2022年5月25日 下午2:34

相关推荐