在危重患者中基于深度学习的复发性谵妄的预测

在危重患者中基于深度学习的复发性谵妄的预测
目的:使用周期性深度学习去预测ICU患者即将发生的谵妄。
 
设计:回顾性队列研究。
 
背景:2014年1月1日至2020年1月24日,加拿大阿尔伯塔省15个医疗外科icu。
 
病人:来自38426名患者的43510次ICU住院信息。
 
干预手段:无。
 
方法和主要结果:我们使用ICU和健康管理数据来训练深度学习模型,以预测接下来两个12小时期间(0-12和12-24小时)的谵妄发作,从ICU入院后24小时开始,并每12小时生成新的预测。我们使用了一套全面的3643个特征,包括患者病史、早期ICU入院信息(前24小时)以及整个ICU入院期间各种临床变量的时间动态。我们的深度学习架构由特征嵌入、递归和预测模块组成。我们基于门控循环单位的最佳模型得出的灵敏度为0.810,特异性为0.848,精确度(阳性预测值)为0.704,在0-12小时预测范围的坚持测试集中,接受者操作特征曲线下面积(AUROC)为0.909。对于12-24小时的预测范围,相同的模型在测试集中实现了0.791的灵敏度、0.807的特异性、0.637的精确度和0.895的AUROC。
 
结论:我们的谵妄预测模型通过对数据集应用深度学习取得了很好的性能,该数据集至少比以前研究中使用的数据集大一个数量级。我们研究的另一个新颖的方面是我们的特征和预测的时间性质。我们的模型能够准确预测ICU中即将发生的谵妄,这可能导致早期干预,更有效地分配ICU资源,并改善患者的预后。
 
关键词:深度学习;谵妄;电子健康记录;重症监护室;机器学习;预测建模

 

 谵妄是一种神经精神综合征,其特征为意识和认知波动性障碍的急性发作,以及运动行为、情绪和睡眠-觉醒周期的改变。据报道,危重患者中谵妄的发生率为20%至83%,与更长住院时间、ICU住院时间延长、更高机械通气率、更长机械通气时间、发病率和死亡率增加以及长期认知障碍有关。

 谵妄的准确预测可能有助于临床决策和ICU资源的分配。目前的预测模型预测能力有限。他们通常只使用一些可用的临床信息(通常限于入住ICU的开始),关注以前没有谵妄的患者,并且没有提供谵妄可能表现出来的时间预测。尽管它们会随着时间而变化,但是当前模型中使用的许多风险因素仅在单个时间点进行测量。即使将一段时间内的多个测量值用于递归预测更新,每个风险因素通常被总结为一个值(例如,分析期间的最异常值),忽略了潜在的重要时间模式。

 

本研究旨在开发和验证一个多变量谵妄预测模型,通过使用ICU入院时可用的数据(历史和入院数据)和ICU住院期间记录的时间数据,重复(每12小时一次)预测ICU中接下来两个12小时(0-12小时和12-24小时)的患者可能出现的谵妄。

 

材料与方法

设计、背景和人口

我们进行了一项回顾性多中心队列研究。本研究纳入了2014年1月1日至2020年1月24日在加拿大阿尔伯塔省15个内科外科ICU住院的所有成年患者(≥18岁),ICU住院时间长于24小时,短于30天。如果在ICU住院期间没有记录谵妄评估或ICU入院数据未与管理数据库关联,则排除患者。

 

该研究由卡尔加里大学联合健康研究伦理委员会批准(REB17-0389),并根据TRIPOD声明(9)进行报告(补充数字内容1,http://links.lww.com/CCM/H278)。由于参与研究的患者人数众多,且研究具有回顾性,因此无需知情同意。

 

所有计算均在Python 3.7中进行(Python软件基金会,德国威尔明顿)。这项研究中使用的源代码和我们的最佳训练模型(可用作预训练模型)可在GitHub(https://github.com/数据智能健康实验室/delirium_prediction)上获得。

 

数据源

主要数据来源是Critical Tracer,这是阿尔伯塔省所有ICU使用的电子病历系统。其他相关的管理数据源包括出院摘要数据库(住院数据包括最多25个国际疾病分类,第9版[ICD-9]代码),国家门诊护理报告系统和艾伯塔省门诊护理报告系统(急诊和门诊护理数据包括最多10个国际疾病分类,第10版[ICD-10]代码),医生索赔系统(门诊数据包括最多3个ICD-10代码),生命统计系统(死亡率数据)。来自出院摘要数据库的ICD-9代码被翻译为ICD-10,以与其他数据源保持一致。所有临床和行政数据均由艾伯塔省卫生服务部门提取并且未公开。

 

特征表现

两个特征集(静态和时间)被用作我们预测模型的输入。静态特征集捕获历史和早期ICU入院(前24小时)数据。时间特征集捕获了ICU入院和预测时间之间变量的时间动态。

 

历史数据包括入住ICU前长达5年的信息,并参考了患者的既往诊断。它被组织成ICD-10组(n = 277)和时间范围(n = 3,从入住ICU前5个月到6个月,从入住ICU前6个月到48小时,从入住ICU前48小时到入住ICU)的组合,这产生了831个历史特征。这些历史特征是二元的:1表示至少有一个与患者、ICD-10组和时间范围相关的诊断记录存在于数据中,而0表示没有诊断记录。

 

早期ICU入院数据包括人口统计学(年龄、性别、入住ICU时的体重和身高)、入院原因和在ICU入院后24小时内完成的临床评估(顺序器官衰竭评估[SOFA]、急性生理学和慢性健康评估[APACHE] II/III/IV及其组成部分)。性别和入住ICU的原因是一次性编码的,总共有27个早期入住ICU的特征。

 

临时ICU数据包括222个时间戳变量。每当两个或两个以上的变量呈现相似的信息时,它们就被合并成一个变量(例如,“床边呼吸率监护仪”和“手动呼吸率”被合并为“呼吸率”)。时间变量的数量减少到192个,包括药物和处方(n = 127),实验室检查结果(n = 30),重症监护谵妄筛查清单(ICDSC)组成部分(n = 9),生命体征(n = 8),SOFA组成部分(n = 7),格拉斯哥昏迷量表(GCS)组成部分(n = 3),机械通气(n = 2)和透析(n = 2)的持续时间,疼痛评估(n = 2),Richmond躁动和镇静量表(RASS)评分(n = 1),以及尿量(n = 1)。从入住ICU开始,每次ICU停留被分成12小时的时间段,在每个时间段内发生的相同变量的记录被分组在一起。对有意义的累积值(如有创机械通气持续时间)的变量进行求和,并使用12个分布和趋势指标对其余变量进行汇总,以标准化方式(最小值、第一个四分位数、中值、第三个四分位数、最大值、平均值、标准差、四分位数间距[IQR]、最小至最大间距、后续测量值之间的平均差异以及最后一次观察值与最小和最大值之间的差异)捕捉不均匀采样变量的时间动态。总的来说,对每个ICU入院和期间计算了2435个时间特征(192个变量× 12个分布和趋势指标+ 131个累积值)。

 

所有特征,静态的和时间的,被线性归一化到(0-1)范围。缺失数据表示为零,为每个早期ICU入院和时间特征创建二进制缺失指标,使我们的模型能够区分缺失值和实际值零。结果,静态和时间特征集分别包括885个(831个历史特征+ 27个早期ICU入院特征+ 27个遗漏指标)和2,758个特征(2,435个时间特征+ 323个遗漏指标)。补充数字内容2 (http://links.lww. com/CCM/H278)中提供了完整的功能列表。

 

使用ICDSC评分创建每个12小时的谵妄基本真相标签,ICDSC评分是一种基于患者病情八个维度的有效筛查工具:1)意识水平改变;2)注意力不集中;3)迷失方向;4)幻觉、妄想或精神错乱;5)精神运动性躁动或智力迟钝;6)不恰当的情绪或言语;7)睡眠-觉醒周期紊乱;8)波动。四个或更多维度的异常状态表明谵妄的存在。ICDSC由训练有素的床边注册护士每12小时轮班进行一次,已被证明具有较高的内部一致性以及良好的敏感性和特异性。重症监护室的混淆评估方法未在艾伯塔省重症监护室使用。在ICDSC评估缺失的情况下,谵妄状态被传播到随后的一个时期(12小时)。

 

预测模型的开发与评价

我们的建模方法在ICU入院期间是连续的(图1);已经开发了类似的时间预警机器学习模型来预测败血症和血流动力学干预。在每个12小时周期结束时,从第二个周期结束时(即入院24小时后)开始,将静态和时间特征集输入到模型中,以预测随后两个12小时周期中谵妄的概率。大于预测阈值的概率表明谵妄预测为阳性。在训练期间,仅测试了两个预测层位的地面真相标签可用的预测时间点。

在危重患者中基于深度学习的复发性谵妄的预测

  使用三个顺序模块进行预测:1)嵌入;2)重复;和3)预测。嵌入模块将高维特征转化为简洁的低维特征表示。循环模块对特征和先前预测的时间动态进行建模。预测模块生成了0-12和12 – 24小时预测范围的预测。补充数字内容3和4(http://links.lww.com/CCM/ H278)分别提供机器学习细节和所有评估的模型架构和超参数值。

 

  数据按患者分为训练(80%)、验证(5%)、校准(5%)和测试(10%)组。数据按以下顺序使用:训练、验证、校准和测试。训练集用于训练建议的模型。验证集用于比较训练模型,并确定最佳模型架构和超参数。使用校准集校准和比较在验证集上具有最佳接收器操作特征曲线下平均面积(AUROC)的30个模型(每个递归神经网络架构10个)。根据精确度(阳性预测值)、召回率(灵敏度)、特异性、F1得分、AUROC和精确度-召回率曲线下面积(AUPRC),对具有最佳平均AUROC且预测阈值导致校准集中最佳F1得分的模型在测试集上进行评估。为了量化最佳模型性能的不确定性,我们使用pivot bootstrap估计器(20)计算了95%的ci,该估计器通过替换对测试数据集进行了200次重采样。因为自举假设独立事件,我们在患者水平而不是在入院或预测实例水平重新取样。

 

有可能我们的模型可以简单地学习预测谵妄状态将保持不变,因为谵妄状态预计不会改变得太频繁。因此,为了评估我们的最佳模型(即,具有最佳架构、超参数值和来自上述模型开发的预测阈值的模型)在谵妄状态转变(与恒定谵妄状态相反)中的性能,我们进一步分析了测试集在两个预测范围(预测时间的谵妄状态-预测范围的谵妄状态)的四个可能场景中的性能:1)无谵妄-无谵妄,2)无谵妄-谵妄,3)谵妄-无谵妄,和4)谵妄-谵妄。

 

  众所周知,深度学习模型是高度复杂的“黑盒”模型,难以解。为了简化这一点,我们通过将Shapley附加说明(SHAP)应用于每个预测范围的最佳模型来估计特征的重要性。

 

敏感性分析

我们还进行了敏感性分析,根据按年份和地点划分的数据分区,以及没有传播先前ICDSC评估的随机数据分区,使用基于上述随机数据划分选择的最佳模型架构、预测阈值和超参数,对新模型进行了训练和评估。对于按地点分层,来自11个和4个ICU的数据分别用作训练和测试集,训练集中随机15%的入院用于校准(补充数字内容5,http://links.lww.com/CCM/H278)。对于按年份分层,2014年至2018年和2019年至2020年的数据分别用作训练集和测试集,同样,训练集中随机15%的入学人数用于校准(补充数字内容6,http://links.lww.com/CCM/H278)。没有ICDSC传播的分析遵循与主分析相同的随机数据划分(补充数字内容7,http://links.lww.com/CCM/H278)。

 

结果

在研究期间,共有48,672名独立患者(55,689次住院数据)被收治到15个ICU。在这38,426例患者(79.0%)中,43,510例入院患者(78.1%)符合纳入标准并被纳入分析。最常见的排除原因是ICU住院时间(LOS)小于1天(6576例[13.5%];7908次入院[14.2%]),其次是没有登记谵妄评估的入院(2933例[6.0%];3,244次入院[5.8%])和ICU LOS超过30天(737例[1.5%];1027人入学[1.8%])(图2)。

在危重患者中基于深度学习的复发性谵妄的预测

  纳入患者的中位年龄为59.9岁(IQR 46.3-70.3 yr),男性居多(57.9%)。

 

患者入院诊断为内科(59.8%)、外科(21.4%)、神经科学(8.6%)、创伤(6.2%)或不可用(3.9%)。少数患者在急诊(15.5%)或择期手术(7.4%)后入院。根据患者的APACHE II(19[13-25])、APACHE III(62[44-82])和SOFA(6[3-9])评分的中位数和IQR入院评分,患者病情严重程度中等。中位ICU LOS为4.1天(IQR 2.4-7.6 d),大约一半的患者(54.5%)在ICU住院期间经历了至少一次谵妄发作。表1比较了谵妄患者和非谵妄患者的特征。

在危重患者中基于深度学习的复发性谵妄的预测

  每次入院平均ICDSC评估次数为10.2次。连续两次ICDSC评估之间的中位数时间为11小时43分钟,IQR为5小时。

 

在训练集、验证集、校准集和测试集中,每个预测实例的缺失值特征百分比的中位数和IQR分别为83.3%(81.0 ~ 85.7%)、83.1%(80.9 ~ 85.7%)、83.3%(81.0 ~ 85.8%)和83.1%(80.9 ~ 85.7%)。在将先前的谵妄状态传播到随后的12小时期间后,在训练、验证、校准和测试集中,一个或两个结果(接下来0-12小时和12-24小时的谵妄状态)缺失的预测实例数量分别为87,582(21.10%)、5,519(21.06%)、5,686(21.42%)和11,833(22.74%)。大部分谵妄值缺失(分别为79.5%、79.3%、77.5%和72.9%)发生在患者ICU住院的最后两个时间段,因为出院后谵妄状态未被捕获。

 

就校准集AUROC而言,基于门控递归单位的模型实现了最佳性能,0.37的预测阈值导致了该模型的最佳校准集F1得分。在嵌入模块中,采用两层结构,静态数据输入64个神经元,时间数据输入512个神经元,双曲正切作为激活函数,残差连接,无丢失。递归模块使用三层,每层128个神经元,下降0.2。使用保序回归的校准呈现出最佳的总体结果,在测试集中,0-12小时和12-24小时预测范围的Brier分数分别为0.111和0.127(补充数字内容8,http://links.lww.com/CCM/H278)。由于在我们的数据集中,30%患病率的随机预测因子的原始Brier评分为0.333,因此等张回归导致了良好的校准(Brier评分越小越好,Brier评分0表示完美校准)。

 

 AUROC和AUPRC以及最佳模型在各种预测阈值下的性能如图3和补充数字内容9所示(http://links.lww.com/CCM/H278)。测试集结果显示了总体(两个预测范围之间的平均值)精度、召回率、特异性、F1评分、AUROC和AUPRC分别为0.670、0.800、0.828、0.729、0.895和0.766(表2)

在危重患者中基于深度学习的复发性谵妄的预测

在危重患者中基于深度学习的复发性谵妄的预测

补充数字内容10(http://links.lww.com/CCM/H278)根据预测时间和预测范围内的谵妄状态,分解了测试集上的最佳模型性能。总的来说,当谵妄状态持续时,表现是极好的。该模型在预测谵妄发作方面表现相当好(在没有校准的情况下,0-12小时和12-24小时预测范围的灵敏度分别为0.757和0.782),但未能预测谵妄的大多数恢复。

 

  在两个预测范围内,基于SHAP的最重要特征与IDSC、GCS、RASS和机械通气相关,IDSC得分最高是最重要的总体特征(补充数字内容11,http://links.lww.com/CCM/H278)。两个预测范围内最重要的静态特征是由ICD编码代表的病史。补充数字内容12和13(http://links.lww.com/CCM/H278)分别介绍了0-12小时和12-24小时范围内每个特征类别的五个最重要的特征。

 

   完整的灵敏度分析结果,包括训练和测试集统计数据,以及预测和校准性能,报告在补充数字内容5-7 (http://links.lww.com/ CCM / H278)用于按地点和年份分层,以及不含ICDSC传播。总体而言,敏感性分析的结果是相似的预测性能。按地点和年份划分的数据分割的平均AUROC在0 – 12小时期间分别为0.910和0.902,在12- 24小时期间分别为0.883和0.877。没有ICDSC传播的数据集在0-12和12 – 24小时范围内的平均ANROC分别为0.883和0.860。此外,所有敏感性分析在谵妄状态的变化和恒定方面与主要分析得出了相似的性能结果。

 

讨论

该研究的新颖性

我们的研究在几个方面都很新颖。首先,据我们所知,我们的研究是用最先进的深度学习方法在ICU谵妄预测中首次主要应用。其次,我们的模型是使用38426名患者的43510名ICU入院患者的数据开发的,这比以前的研究(1613[7],1824[6],2914[5]和560名[8]患者)的数据要大得多。第三,我们的模型每12小时对特定的预测范围(而不是ICU入院期间的任何时间)进行一次新的预测(而不是在特定时间点进行一次预测),这在ICU谵妄预测的背景下是新颖的。第四,本研究使用的特征集比以往大多数研究使用的特征集更全面(共3643个特征,而以往研究为7 – 10个),并包括历史和时间的ICU数据。一些研究,如Moon等人使用了与本研究相似的特征集,但这是少见的。第五,我们的模型能够很好地预测谵妄发作,尽管它不能预测谵妄的恢复。临床上,预测谵妄发作比预测恢复更有用。当谵妄状态不变时,我们的模型的表现非常出色。需要注意的是,一般来说,我们的模型高估了谵妄的概率,并将其校准,如补充数字内容5-8 (http://links.lww.com/CCM/H278)所示。因此,在谵妄状态转换分析中使用与主分析相同的阈值0.37时,未校准的预测概率比校准的预测概率更能得到积极的预测。这就是为什么等张回归和Platt标度在无谵妄-谵妄和谵妄-谵妄转换中的表现出无校准,而在无谵妄-无谵妄和谵妄-无谵妄转换中的表现有所改善(补充数字内容5–7和10,http:// links.lww.com/CCM/H278)。然而,这是一种权衡,四种谵妄状态转换场景中的任何一种场景的性能都可以通过调整预测阈值来提高,而其他场景的性能是以牺牲为代价的。最后,我们将我们的最佳表现模型公之于众,以便其他研究人员可以使用它,或者作为其他机构的预训练模型。

 

与相关工作比较

文献中有几个ICU谵妄预测模型。谵妄前模型是利用1613名连续的成人ICU患者的数据开发和最初验证的,得出的AUROC为0.87 (95% CI为0.85–0.89)。这个模型后来在一项多国观察研究中进行了重新校准,该研究对来自6个国家的8个ICU的1824名患者进行了研究,得出的AUROC为0.77。早期谵妄前模型仅使用ICU入院时可用的信息预测ICU谵妄。它基于2,914名连续的ICU患者,得出的AUROC为0.75。最近,DYNAMIC-ICU模型是基于四个ICU连续收治的560名成年患者开发的,并在验证队列中实现了0.900的AUROC(95% CI 0.858–0.941)。本研究中报告的性能与之前的研究相似或更好。

 

临床意义

对即将到来的谵妄的预警可以有意义地提供临床决策,例如有限资源的有效分配。例如,基于护理需求(ICU比率通常为1:1到1:4)分配给患者的护理任务可以提前通知,因为谵妄患者需要更多的个人护理。类似地,预防(例如,降低噪音,尽量减少夜间干预)和管理(例如,协调家庭护理人员探视时间)策略可以基于发展中的谵妄风险进行规划。最后,鉴于谵妄通常是新器官功能障碍和临床恶化的早期表现 (例如,由医院获得性感染引起),有效的预测模型既可以为监测策略提供信息,也可以为早期检测和管理提供机制。

 

局限性和未来工作

这项研究的结果需要在其局限性的背景下进行解释。首先,我们的模型使用了大量的特性列表作为输入。这些变量中的一些可能在其他临床环境中不可用,这限制了我们模型的可推广性。我们不知道在变量减少的情况下,这些模型将如何发挥作用。未来的工作可能会开发一个更广泛适用的模型,仅使用ICDSC、GCS和RASS这些最重要的预测因子。其次,我们的数据预处理和预测建模方法经过精心选择,但并不详尽。其他方法可能会带来更好的预测性能第三,我们使用了单一人群(加拿大阿尔伯塔省)的患者数据,未来的工作将集中在其他人群的验证上。最后,我们的模型是基于回顾性开发的,因此不应该用于因果推断。特征的重要性仅仅基于关联而不是因果关系。

 

结论

我们的谵妄预测模型表现出了良好的性能,可以为临床决策提供有意义的信息,有可能有助于ICU资源的最佳利用和患者预后的改善。

 

原文链接

https://pubmed.ncbi.nlm.nih.gov/36790184/

 

 

 

本文荟萃自,只做学术交流学习使用,不做为临床指导,本文观点不代表数字重症立场。

(0)
打赏 微信扫一扫 微信扫一扫
Chu的头像Chu
上一篇 2023年4月6日 下午2:36
下一篇 2023年4月8日 上午12:14

相关推荐