机器学习重症监护谵妄预测：模型开发和外部验证

摘要

背景:谵妄对患者健康构成重大威胁，但可以采取对策以减轻不良后果。准确预测重症监护病房(ICU)患者谵妄可指导积极干预。我们的主要目标是通过将机器学习应用于电子健康记录中常规收集的临床和生理数据来预测ICU谵妄。

方法:使用多中心数据库(2014年至2015年的数据收集)训练和测试两个预测模型，并在两个单中心数据库(2001年至2012年和2008年至2019年)中进行外部验证。主要终点为定义为阳性的谵妄ICU筛查方法，或重症监护谵妄筛查检查表得分大于等于4分。第一个模型被命名为“24小时模型”，使用进入ICU后24小时内的数据来预测随后任何时间的谵妄。第二个模型指定为“动态模型”，提前12小时预测谵妄发作。模型性能被与广泛引用的参考模型进行了比较。

结果:对于24小时模型，在开发样本和两个验证样本中，患者停留期间，分别在18,305例中的2,536例(13.9%)，5,299例(14.5%)中的768例，以及36,194例(11.9%)中的5,955例(11.9%)中确诊了谵妄。对于12小时提前预测动态模型，分别在22234例(17.0%)中的3791例(17.0%)、6166例(16.1%)中的994例(16.1%)和28440例(20.9%)中的5,955例(20.9%)患者中确诊了谵妄。前24小时模型的接受者工作特征曲线(AUC)下的平均面积(95% CI)为0.785(0.769～0.801)，显著高于修改后的参考模型，其AUC为0.730(0.704～0.757)。动态模型在预测谵妄12小时前的平均AUC为0.845(0.831至0.859)。两个模型的校准相似(平均Brier评分[95% CI] 0.102[0.097～0.108]和0.111 [0.;106 ～0.116])。模型的判别和校准在验证数据集上进行测试时也得到了保持。

结论:使用常规收集的电子健康记录数据训练的机器学习模型可以准确预测ICU谵妄，支持动态时敏感预测。

(ANESTHESIOLOGY 2023; 138:299–311)

谵妄在急性护理环境中很常见，特别是在重症监护室(ICUs)中，影响多达35%的住院患者和高达80%的需要重症监护的患者，每年的医疗支出估计为1640亿美元。住院患者谵妄的发作是不良的短期和长期健康结果独立的影响因素，旨在预防或治疗谵妄的研究被视为公共卫生优先事项。

大约30 – 40%的谵妄病例可能适用于谵妄减少策略。多策略干预措施集中于设备调整和导管移除、促进正常睡眠–觉醒周期和早期活动，这些是预防和治疗谵妄的成本效益方法。对于危重患者，在超过15,000名危重患者的多中心队列研究中，实施结构化集约治疗可使谵妄发生率降低40%，在需要镇静的ICU患者中，使用α2激动剂右美托咪定可降低高达48%的谵妄风险。虽然这些方法是有希望的，ICU谵妄仍可能被低估和误诊谵妄筛查在许多卫生系统中是不一致的。由于疾病的急性起病和波动性，即使在持续监测时，也可能无法捕捉到相关事件。

过去二十年的研究已经确定了一些谵妄的危险因素，其中一些可能是可调控的。在高危人群中预测谵妄发生的能力可能允许预防或治疗策略以更有针对性或甚至个性化的方式实施。在这里，我们创建了两个模型来预测谵妄:一个早期预测模型，通过使用ICU住院早期可用的数据来识别重症监护期间任何时间发生的谵妄，一个动态模型，预测未来0至12小时谵妄的发生。我们假设重症监护期间常规获得的生理和临床变量与谵妄发生的几率相关。

材料与方法

总体目标是通过训练可识别生理和床旁常规可用的临床特征的机器模型来预测ICU谵妄的发生。如果我们的主要假设是正确的，我们将拒绝无效的假设，即在重症监护期间常规获得的生理和临床变量与谵妄发作的没有关系。研究遵循了个人预后清单的多变量预测模型的透明报告，在补充数据内容(http://links.lww.com/ALN/C999)的表格E1中提供了该清单的副本。数据的管道模式也在补充数据内容(http://links.lww.com/ALN/C999)的图E1。所有代码都可以在GitHub上访问https://github.com/ryanlu41/delirium。

第一个24小时模型开发的数据分析和统计计划在访问数据之前被写入并记录在调查人员的文件中，而在访问数据之后发生了额外的模型开发。这包括确定哪些患者在开发数据集中出现谵妄，并提取由领域专业知识指导的特征。这些特征的分布差异使用Mann-Whitney U检验进行比较(用于两个独立样本中连续特征均值的非参数比较)，或卡方检验(用于分类数据中比例的比较)。所有分析都使用p值阈值0.05为显著性。统计和机器学习软件包将在后续章节中详细介绍。

数据来源

本报告中的研究是在三个完全公开的可用数据集上进行的，这些数据集通过麻省理工学院(剑桥，马塞诸塞州) PhysioNet repository提供，即飞利浦eICU合作研究数据库(以下简称为开发数据集)，第三版医疗重症监护信息集(通常简称为MIMIC-III，以下简称为验证数据集1)，第四版重症监护医疗信息数据集(通常简称为MIMIC-IV，以下简称验证数据集2)。前者用来进行模型训练和测试，后两者用于外部验证。开发数据集是一个基于电子健康信息记录的多中心数据库，包含了2014年至2015年美国208家医院的200,859名进入ICU患者的详细数据。验证数据集1包括电子健康记录数据，来自2001年至2012年马萨诸塞州波士顿贝斯以色列女执事医疗中心61532个ICU住院者。验证数据集2包括电子健康记录数据，来自2008年至2019.13年波士顿贝斯以色列女执事医疗中心的76,943个ICU住院病例。由于来自同一家医院并且有几年相同的时间段，两个验证数据集可能在数据上有一些重叠。

两个验证数据库中的数据已被鉴定，麻省理工学院(编号0403000206)和贝斯以色列女执事医疗中心(编号2001-P-001699/14)的机构审查委员会都批准使用数据库进行研究。由于数据库不包含受保护的健康信息，在机构审查委员会的批准中包含了对知情同意要求的放弃。开发数据集中的数据也被去识别，使用开发数据集的研究不受机构审查委员会的批准。因为是回顾性设计，没有直接的患者干预，其中的再识别风险被独立隐私专家(Privacert，剑桥，马萨诸塞州;健康保险责任法案认证编号1031219-2)认证。

建模范例

研究者创建了两个建模范例(图1)。第一个模型称为“第一个24小时模型”，分析入ICU后24小时内收集的数据，以预测在ICU住院期间任何后续时间点发生谵妄的概率。第二个模型称为“动态模型”，使用入ICU至预测时间点累积数据，计算未来0～12 h谵妄发作的概率。

机器学习预测重症监护谵妄：模型开发和外部验证

病例确认

图2的流程图显示了谵妄病例的确认和选择。如果患者被送入ICU，在ICU中停留至少24小时，并使用重症监护病房的意识模糊评估方法或重症监护谵妄筛查检查表进行谵妄筛查，则选择第一个24小时模型。为了限制患者在预测时间之前发生谵妄的可能性，我们排除了谵妄测试阳性或在前24小时内诊断为阳性的患者。对于动态模型，我们选择了在ICU至少停留了12小时的患者，且在ICU停留期间，他们至少接受了一次谵妄筛查。为限制患者因谵妄进入ICU的可能性，我们排除了谵妄筛查阳性或在前12小时确诊的患者。谵妄病例是通过在患者住院期间第一个ICU或重症护理谵妄筛查检查表筛查阳性，定义该时间点为谵妄发作时间，并使用发作前的数据进行预测。12小时动态发展模型队列中谵妄发作的中位时间(和四分位数范围)入ICU后61.3(38.3-109.5)小时。未发生谵妄的病例是通过找到ICU病房所有谵妄筛查均为阴性，随机选择筛查之一，并使用谵妄测试之前的数据进行预测获得的。这些随机选择的阴性谵妄筛查的中位时间(和四分位范围)为入ICU后39.7(30.4-59.8)小时。这导致模型在患者ICU停留期间的一个相对跨度较大的时间范围内进行预测。

机器学习预测重症监护谵妄：模型开发和外部验证

结局变量

主要结局变量为谵妄，定义为ICU筛查的阳性意识模糊评估方法，重症监护谵妄筛查检查表上的4分或以上，且诊断代码信息中没有任何矛盾的地方。ICU意识模糊评估方法和重症监护谵妄筛查检查表评分都记录在开发数据集中，而只有ICU意识模糊评估方法记录在两个验证数据库中。在开发数据集中，谵妄测试之间的中位数(四分位数范围)间隔为4.0小时(1.0～12.0小时)，而在验证数据集1中，它是9.2小时(4.0～13.3小时)，在验证数据集2中，它是9.4小时(4.0～12.3小时)。

预测变量

通过文献回顾、临床医生指导和数据集探索，确定了模型中需要考虑的预测变量。提取的变量包括患者人口统计数据、病史和合并症、实验室研究、药物管理、其他治疗、护士文件和生理时间序列(护士验证的数据和来自监控器的自动数据)。所有时间戳都以分钟级时间间隔记录。到目前为止，所有的分析都是使用Python完成的，特别是numpy和pandas数据包，合并症的特性是使用R语言创建的。

预处理

每个特征的分布由研究员培训，委员会认证的重症监护医生检查，他帮助定义了生理合理性的上限和下限;然后删除被认为不可信的值。对于每个模型和前置时间，超过20%的样本缺失的特征被排除，这主要导致从特征空间中删除了不太常见的实验室测试，如碱性磷酸盐测量或单核细胞计数。然后使用平均值输入(基于训练数据均值)来估算缺失值。

特征开发与分析

从处理后的数据中创建预测特征。分类变量被一次性编码为单独的特征(即转换为二进制变量)，而有时为简单起见被分组在一起。对于在患者住院期间具有多个值的数值变量，计算了的集中趋势和方差估计值，如平均值和标准差。对于出现频率较高的变量，如呼吸频率、心率、血压或氧饱和度数据，使用Python tsfresh程序包计算更复杂的特征，在补充数据及内容(http://links.lww. /aln/c999)的表E2中可以获得模型中使用的功能的完整列表。

模型开发

模型特征是使用了三种机器学习策略来分析的：逻辑回归、随机森林、梯度提升(CatBoost)，以及使用所有三种算法输出的集成或堆叠模型。所有建模和评估(不包括CatBoost算法)都是使用Python完成的，特别是scikit-learn 程序包和SciPy 程序包。临床相关特征及其与谵妄风险的关系通过logistic回归、随机森林或SHapley Additive exPlanations(SHAP或SHapley值)来确定。Shapley值表示特征与给定的模型输出之间的定量关联，高Shapley值表示与高模型输出之间的关联，反之亦然。Shapley图越来越多地用于可视化机器学习捕获的复杂关系。对于每个建模练习，如果每个训练算法内部确定的特征重要性为零，则删除特征，如果它们被经过专科培训和资质委员会认证的重症监护医生认为不可信，则删除特征。使用嵌套交叉验证方案来训练和评估模型。在这个设置中，完整的数据集被分成四个不同的外部训练和测试集组合。然后，每个外部训练集被进一步划分为五个不同的数据集。对于外循环的给定迭代，超参数首先使用迭代训练集上的5倍交叉验证进行调优。然后在外部训练集上训练具有最优超参数的模型，并在迭代的测试集上进行评估。对于每个不同的外部训练和测试分割，这个过程重复四次。为了训练最终的模型，超参数通过外部分割进行调优，然后一个具有最佳超参数的模型在整个数据集上进行训练。超参数在可行的情况下使用贝叶斯超参数优化进行调优。对于贝叶斯超参数优化，使用了树状的结构Parzen Estimator方法。最后的超参数在补充数据内容(http://links.lww.com/ALN/C999)的表E3中。

基于ICU患者模型PREdiction的DELIRium的预测特征(通常缩写为PRE-DELIRIC)，（以下称为参考模型)，是一个被广泛引用的ICU谵妄预测参考模型。被用于比较，并根据开发数据集中的数据可用性对特征进行了轻微调整(在补充数据内容的表E4中描述，http://links.lww.com/ALN/C999)。这些基于参考模型的特征被用于在开发数据集中训练一个logistic回归模型。

模型表现评估

通过三个指标评估模型性能:接受者工作特征曲线(AUC)下的面积，精度召回曲线(或平均精度)下的面积，以及Brier评分或校准曲线，同时最小化训练和预测所需的计算。这些指标表明预测变量与谵妄风险之间的关系强度。报告了外部测试集上的性能。为了从外部验证的结果，在整个开发数据集上训练的最终模型在验证数据集提取的特征上进行了测试，在模型训练过程中没有使用这些特征。对于这些指标，也计算了95%的CI。详细的性能指标报告了第一个24小时模型的各种迭代和在补充数据内容(http://links.lww.com/ALN/C999)中的表E5，图E2和图E3中的动态模型。对于主要的分析，如果AUC大于0.5，我们将拒绝零假设。

结果

患者特征

机器学习预测重症监护谵妄：模型开发和外部验证

图2提供了患者纳入和排除的详细流程图，表1报告了人群的特征，补充数据内容呈现于在线表格E6和E7中(http://links.lww./aln/ c999)。第一个24小时动态模型的队列包括开发数据集中的18,305名患者，其中2536名(13.9%)被标记为谵妄阳性。在验证数据集1中，共有5,299名患者在ICU中停留，其中768名(14.5%)为谵妄阳性;在验证数据集2中，共有36,194名患者在ICU中停留，其中5,955名(11.9%)为谵妄阳性。在所有数据集中，中位数APACHE IV评分和未经调整的死亡率在谵妄阳性患者中显著较高。

对于12小时领先时间动态模型，开发队列包括在开发数据集中的22,234名患者，其中3,791名(17.0%)被标记为谵妄阳性，18,443名(83.0%)为阴性。在验证数据集1中，共确认了6166例住院患者，其中994例(16.1%)为谵妄阳性，5172例(83.9%)为阴性。在验证数据集2中，共确认了28440例住院患者，其中5955例(20.9%)为谵妄阳性，22485例(79.1%)为谵妄阴性。在第一个24小时模型的发展队列中分析的录取特征见表1，来自验证队列的类似特征可在补充数据内容(http://links.lww.com/ALN/C999)的表E6和表E7中获得。

24小时模型表现

表现最好的算法是CatBoost，它是用经过修剪的155个特征空间来训练的。图3总结了所有预测性能指标。虽然来自共享特征的模型的AUCs没有标准的统计检验，平均AUC (95% CI)为0.785(0.769～0.801)，这高于调整后的参考模型的平均AUC，其数值为0.730(0.704～0.757)。这个模型在验证数据集1 (AUC为0.796)和验证数据集2(AUC为0.810)中得到成功验证。在保证灵敏度为0.85的情况下，该模型的特异性为0.556(0.515 /0.586)，阴性预测值为0.948(0.943/0.950)，阳性预测值为0.282(0.264/0.296)。在开发数据集中，的平均精度为0.384(0.357～0.411)，而在验证数据集1中为0.389。在验证数据集2中为0.475。平均Brier分数在开发数据集中为0.102（0.097～0.108），在验证数据集1中为0.105，在验证数据集2中为0.110。

动态模型表现

动态模型总体表现优于24小时模型，在较短的提前期内，表现更好(图4)。12小时模型的平均AUC (95% CI)为0.845(0.831～0.859)，并在验证数据集1 (AUC为0.804)和验证数据集2 (AUC为0.838)中得到了验证。当保持灵敏度在0.85时，模型特异性为0.657(0.623～0.691)，阴性预测值为0.955(0.953 ～ 0.957)，阳性预测值为0.337(0.315 ～ 0.359)。

机器学习预测重症监护谵妄：模型开发和外部验证

在开发数据集中，平均精度为0.590(0.566～0.613)，而在验证数据集1中为0.449，在验证数据集2中为0.593。在开发数据集中，Brier平均得分为0.111(0.106～0.116)。验证数据集1为0.165，验证数据集2为0.132。提前6小时预测时，这个时间大于开发数据集中谵妄测试之间的中位数时间，平均AUC (95% CI)为0.880(0.872～0.887)。外部验证性能是可变的，验证数据集2的结果一般在开发数据集结果的95% CI内，验证数据集1的性能略差。但是，开发和验证样本之间AUC的最大绝对差值为0.04。在所有情况下，AUCs的95% CI排除了0.5;因此，我们拒绝原假设，即在重症监护期间常规获得的生理和临床变量与谵妄发作的概率无关。

特征重要性分析

机器学习预测重症监护谵妄：模型开发和外部验证

特征重要性是使用Shapley值来确定的，表示相对重要性和方向性，在提前1小时的动态模型中的结果如图5所示，24小时模型中的结果呈现在补充数据内容(http://links.lww.com/ALN/C999)的图E7中。尽管特征的重要性模型而不同，Glasgow昏迷评分、Richmond躁动镇静评分、年龄、机械通气和整体灵敏度的特征在预测中是重要的。谵妄发作前的ICU住院时间和每天的发作时间是动态模型的重要预测因素。与我们的一个主要假设相反，基于5分钟一次测的血压、呼吸频率、心率和氧饱和度的生理时间序列数据并没有增加任何一个模型的性能，这可以从补充数据内容(http://links.lww.com/ ALN/C999)中表E8中看到。

讨论

主要结果

通过使用大型临床数据库，我们开发并验证了两个用于预测ICU谵妄的新模型。第一个24小时早期预测模型比调整后的参考模型表现更好(图3)，并在目前所应用的数据集中校准良好(图3)。第二个动态谵妄预测模型，能够估测随着时间不断更新的谵妄风险，具有比修改后的参考模型更高或类似的辨别谵妄发生的能力。这两个模型在两个外部数据集上验证良好，特别是在更现代的数据集上，尽管该模型的校准在验证队列中受到限制，其中，在高预测概率下，观察到谵妄的概率要低得多。

现有文献分析

评估ICU谵妄预测的研究在患者特征、预测框架和模型性能方面各不相同(见补充数据内容中的表E9, http://links.lww.com/ALN/C999)。在以前的工作中确定的许多最具预测性的特征(例如，年龄，机械通气，疾病严重程度[APACHE，SOFA]，苯二氮卓类药物暴露)在这里提出的模型中均得到了证实。在大多数先前的研究报告中，高预测性能的静态模型无法预测谵妄发生的特定时间点。ICU患者PREdictive of DELIRium（PREDELIRIC）模型是该类研究中使用最多的模型，但研究结果在世界范围内的不同人群中差异很大。尽管一项荟萃分析估算的的总AUC (95% CI)为0.844(0.793～0.896)。以前的许多研究都有严格的患者纳入标准，集中于某些疾病或ICU类型，因此限制了结果的泛化。一些关于更高性能模型的报告缺乏外部验证，并且样本量比此研究小的多。先前数量有限的对谵妄发作进行时间特异性预测的研究评估了他们的模型，以每天为时间单位，例如在午夜预测，结果预测出了在接下来的24小时内出现的谵妄发作。

生理时间序列

在本项目实施早期，我们假设生理时间序列数据(特别是血压、呼吸频率、氧饱和度和心脏频率)的复杂特征可用于预测谵妄的发作。这个假设在我们的模型中没有得到验证。尽管这样的特征具有一定的预测能力，但它们并没有改善模型的性能，而且计算成本更高。这种违反直觉的结果可能是由于特征冗余，或者可能缺乏假设的关联。

研究的优势

大型异构数据集

我们的研究使用了来自飞利浦eICU合作研究数据库的数据，该数据库包含了美国200多家医院的20多万份独特的ICU住院记录。该数据集包括来自各种不同卫生系统规模、组织结构和设置的重症监护单位的数据，我们从这个数据集中提取了22,234次在ICU停留的病人的数据，用于训练、测试和验证我们的动态模型。这比以前谵妄预测研究中使用的人群样本更大，这个人群可能比目前使用的原始参考模型数据集中使用的数据具有更大的异质性，目前的原始参考模型包含的是荷兰一家医院1613次患者住院的数据，并使用来自同一国家其他四家医院的数据进行了验证。在不同人群中获得的模型结果外推性更好，特别是在数据收集地美国。数据集的公开可用性为其他研究小组提供了评估我们模型可重复性的机会。

动态预测的潜在优势

这里提出的动态模型旨在预测在设定时间至未来12小时这一时段谵妄的发生，可能比其他预测系统更敏感。更有时间特异性的发病预测可以允许即刻在高危患者中进行有针对性的预防措施。在较短的提前时间内(1小时或更短)，该算法可以识别接近当前时间的谵妄，这可以提高治疗正在发生中的谵妄的能力，并减少伤害。

外部验证

谵妄预测模型在两个大型独立外部数据集上得到验证，尽管在较旧的外部数据集上的验证不那么可靠。这些结果表明模型在开发数据集中表现良好，也可能适用于其他人群。绝大多数特征都是在外部验证数据集中观察到的，这表明我们模型中的特征可以推广到一系列重症监护环境中。

局限性

实验设计

我们评估了谵妄作为结果与一系列不同暴露变量之间的关系。我们认为这种设计，相当于一个病例对照研究方法，非常适合建模任务。然而，我们认识到其局限性，包括无法确定因果关系，以及潜在的与选择和回顾病例数据相关的偏倚，以及当过度强调与我们关注的结果接近的特征时，可能发生的时间偏倚。

结局标签

在开发和验证样本中观察到的谵妄发生率低于其他ICU谵妄研究报告。这可能部分原因是我们排除了在ICU住院期间早期出现谵妄的患者。也有可能在谵妄筛查过程中一些患者被临床医生错误的记录了。特别是淡漠型的谵妄，在ICU中可能被忽视。基于这部分数据得出的结果可能会使我们的模型产生偏差，使其更适合预测活跃型谵妄。另一个关键的限制是关于谵妄发作和症状消退的精确时间的不确定性，以及这种不确定性对谵妄检测甚至流行病学的影响。谵妄的主要特征之一是其波动的性质，对检测的精确时间提出了挑战。与其他谵妄临床研究一样，我们从记录的ICU意识模糊评估方法和重症监护谵妄筛查检查表筛查试验中确定了病例，然而，记录和患者出现临床征象之间的时间间隔可能会有所不同。同样，谵妄筛查频率的不一致代表了另一个限制。这可能反映了ICU环境中的临床医生工作流程，可以直接影响这些测试的记录。