重症监护中的大数据和数据科学

医疗系统的数字化导致了临床大数据的涌现，并推动了医学数据科学的快速发展。数据科学是致力于从复杂数据中有原则地提取知识的研究领域，在重症监护环境中尤其重要。ICU中大量数据的可用性、对更好的循证护理的需求以及危重疾病的复杂性使得数据科学技术和数据驱动研究的使用特别吸引重症监护医师。尽管该领域的研究和出版物数量不断增加，但迄今为止，很少有数据科学项目在ICU成功实施数据驱动系统。然而，鉴于该领域的预期增长，密集型数据研究人员应该熟悉大数据和数据科学的机遇和挑战。本文回顾了大数据和数据科学在重症监护中的定义、算法类型、应用、挑战和未来。

ICU中大数据的一些主要来源

术语“组学”是指源自现代分子技术（例如，基因组学，转录组学，蛋白质组学，代谢组学，微生物组学）的数据 EHR =电子健康记录

术语	定义
大数据	大数据的5V特点（IBM提出）：Volume（大量）、Velocity（高速）、Variety（多样）、Value（低价值密度）、Veracity（真实性）。导致数据集对于传统数据处理系统而言过大
数据科学	支持和指导从数据中有规律地提取信息和知识的一组基本原则
数据挖掘	通过结合了数据科学原理的机器学习算法从数据中提取知识
领域专业知识	在给定领域（例如重症监护医学）中对现实世界问题的理解有助于框架化和情境化数据科学应用程序来解决这些问题
机器学习	研究计算机如何从数据中学习以及使这种学习成为可能的算法的领域
特征量	数据元素，也称为自变量，用于训练模型。特征可以是原始数据的简单转换（例如，最近24小时的平均心率），也可以是复杂的转换，例如由神经网络执行的转换
结果	这些数据元素，也称为因变量，代表监督学习模型中训练的目标。结果可以是分类的(如，是/否)或连续的(如，住院时间)。分类二进制结果在医学上是最常见的(例如，28天的死亡或存活)。二进制结果通常表示为布尔逻辑(如真/假或1/0)，但也可以用模糊逻辑(如概率范围，或真度，在0和1之间)表示
监督学习	用来揭示一组特征与一个或多个已知结果之间关系的算法
无监督学习	用于发现数据中自然发生的模式或分组而不针对特定结果的算法
模型训练	机器学习算法通过学习特征之间以及（在监督学习中）特征和结果之间的关系来开发数据模型的过程。这也称为模型推导或数据拟合
模型验证	测量模型对新的独立数据的适应程度的过程。例如，评估监督模型在预测新数据结果方面的性能。这种方法也称为模型测试
预测模型
预后模型	一种经过专门训练来预测疾病相关终点或结局(如死亡率)的可能性的模型。总的来说，我们的目标是在给定一组基本特征的情况下评估预后，而不管最终的结果是什么
过度拟合	当算法从训练数据的特性中学习时发生的现象，通常称为噪音。噪声数据是随机出现在训练数据集的数据，但不代表可概括的真相(通常被称为信号)，这解释了特征和结果之间的关系。在独立的验证数据集中，过拟合通常会导致模型性能不佳
数字化	把模拟的或物理的东西(如纸质文件、打印图像)转换成数字格式(如位或1和0)的过程。
数字化过程	广泛采用数字技术以利用其数字化数据，以改善运算和性能。电子病历和其他数字技术（例如，医学图像的图片存档和通信系统，药房管理系统，计费系统）的采用是医疗保健数字化的示例
数据管理	将来自不同来源的数据集成、结构化、身份验证和注释以确保其质量、增加价值并促进其使用和重复用的过程
结构化数据	易于搜索、总结、排序和量化的数据(通常是离散的或数值的)。例如生命体征(如心率)或实验室检测结果(如CBC)
非结构化数据	不符合预先指定结构的数据，如书面叙述、图像、视频或音频。非结构化数据通常更难搜索、排序和量化。例子包括临床记录、病理切片和放射学图像

适用于重症监护的机器学习算法的类型

A,可以使用监督学习算法来发现患者临床特征（例如实验室检查和生命体征）与死亡率之间的关系，以预测未来病例的结果。
B，无监督学习算法可用于根据患者的临床特征发现患者的自然分组或聚类，而无需针对特定的结局。
C，可以使用深度学习算法从影像数据（例如，胸部X光片）中提取有意义的特征，以越来越高的层次复杂性表示信息，并能够做出预测，例如预测病理结果。

算法类别简单总结

算法类别	例子	描述
Classic regression 经典回归	Linear regression, logistic regression	线性回归是一种有监督的学习算法，它通过拟合回归线来建模一个或多个特征与连续结果之间的关系，该回归模型使所有残差之和最小，该残差是训练数据中每个特征与拟合线之间的距离为它们建模。逻辑回归是线性模型的一般化，它使用逻辑函数来估计二进制结果的概率。为此，逻辑函数的拟合S形曲线将特征值映射为0到1之间的概率
Regularized regression 正则化线性回归	Lasso, ridge regression, elastic net	经典回归算法的扩展，其中对拟合模型施加了惩罚，以降低其复杂性并降低过拟合的风险
Tree-based 基于树模型	Classification and regression trees, random forest, gradient boosted trees	一类基于决策树的监督学习算法。决策树是“ if-then-else”分割序列，它是通过根据特征与结果的关系迭代地将数据分组而得到的。随机森林和梯度增强树是集成树模型的示例。集成模型结合了许多训练有素的模型来输出估计的结果
Support vector machines 支持向量机	Linear, polynomial, radial basis kernel	一类监督学习算法，代表多维特征空间中的数据，然后拟合“超平面”，该“超平面”可根据感兴趣的结果最好地分离数据
K-nearest neighbor K-近邻	K-nearest neighbor	一种监督学习算法，代表多维特征空间中的数据，并使用与观测最接近的新示例的局部信息来预测该示例的结果
Bayesian 贝叶斯网络	Naive Bayes, Bayesian network	这是一种有监督的学习算法，它使用了条件概率的贝叶斯定理，条件概率定理是指在已有的情况下某件事发生的概率。一般来说，贝叶斯算法通过迭代更新给定新数据的结果(或后验信念)的概率来工作
Neural network 神经网络	Artificial neural network, deep neural network	使用节点层构建的一类非线性算法，这些节点从数据中提取特征并执行最能代表基础结构的组合，通常可以预测结果。神经网络可以是浅层（例如，具有两层的感知器）或深层（多层），它们构成了深度学习领域的基础
Dimensionality reduction algorithms 降维	Principal component analysis, linear discriminant analysis	一类无监督的学习算法，它们利用数据中的固有结构来使用较少的信息来描述数据。例如，主成分分析将大量相关特征汇总为较少数量的代表性特征
Latent class analysis潜在类别分析	Latent class analysis
Cluster analysis 聚类分析	K-means, hierarchical cluster analysis	一类无监督学习算法，该算法使用数据中的固有结构，根据特征之间的某种距离度量，将数据最好地组织为具有最大共性的子组