PMID: 31714992 DOI: 10.1001/jama.2019.16489
近年来,已经使用复杂的机器学习方法开发了许多新的临床诊断工具。无论如何衍生诊断工具,都必须使用三步过程(deriving, validating and establishing)来确定该工具的临床有效性。还应该评估基于机器学习的工具所使用的机器学习模型的类型及其对于输入数据类型和数据集大小的合理性。机器学习模型通常还具有称为超参数的其他预先设置,这些设置必须在独立于验证集的数据集上进行调整。在验证集上,评估模型所依据的结果称为参考标准。必须对参考标准的严格程度进行评估,例如对比公认的金标准或专家意见进行的评估。
本文概述了机器学习以及如何评估已发表的描述了使用基于机器学习的工具来建立医学诊断方法的文献。
一、诊断试验研究结果的评估和应用
二、与机器学习方法相关的通用术语词汇表
三、机器学习方案的类型,数据集名称和正则化
A,决策规则和机器学习方法都使用数学函数来处理输入数据并做出预测。许多决策规则是基于风险因素与代表每个风险因素相对重要性的权重相乘。B,更复杂的机器学习方法可以利用数百万或数十亿的乘法和其他数学运算来提取复杂输入数据(如图像)的描述性特征。这些操作的权值或参数也可以通过数据得到。C,可以对每个层进行检查和可视化,以直观地了解所识别的图案。尽管本示例着重于图像解释的特定问题,但通过多层数学运算学习复杂特征的一般概念也适用于许多最新方法。
A. 决策规则通常具有少量参数(例如5-10),例如每个风险因素的权重或分数。这些参数通常使用单个开发集得出,并在1个或多个验证集上进行评估。B,尽管机器学习模型的参数类似地从数据中得出,但是通常还有其他一些超参数(例如学习速率)会影响最终得出的参数。这些超参数需要使用独立于验证集的调整集进行调整,以避免过度拟合。
机器学习在医学上并不新鲜,它已在更简单的临床决策规则中得到有效应用。临床医生应该验证机器学习方法的有效性和影响,就像任何其他诊断或预后工具一样。阅读机器学习的研究,读者应该评估该机器学习模型验证的最关键元素,如研究设计是否通过不适当的超参数调整或低质量的参考标准过度体现模型性能。至关重要的是,必须在不用于训练或调整模型的独立数据集上验证机器学习模型。最后,因为机器学习模型最大的优点之一是一致性和没有疲劳,一个有用的检查机器学习结果的可信程度是有经验的专家(有充裕的时间)是否可以重现机器学习所声称的准确性。如果结果远远超过了即使是这样一个假想的专家所能达到的水平,那么就应该仔细审查和验证该模型。
本文荟萃自公众号: 医学AI之家,只做学术交流学习使用,不做为临床指导,本文观点不代表数字重症立场。