如何深刻理解 AUC-ROC 曲线？

Chu • 2022年5月2日上午9:49 • 数字信息, 数字医疗 • 阅读 3328

在机器学习中，性能评估是必不可少的任务，因此，当涉及分类问题时，我们可以使用AUC-ROC曲线进行评价，当需要检查或可视化多类分类问题的性能时，我们使用AUC-ROC曲线，这是检查任何分类模型性能的最重要的评估指标之一。它也简写为AUROC。

为了更好地理解，建议您阅读有关混淆矩阵的文章。

该博客旨在回答以下问题：

什么是AUC-ROC曲线？
AUC和ROC曲线中使用的术语；
如何推测模型的性能；
敏感性，特异性，FPR和阈值之间的关系；
如何将AUC-ROC曲线用于多类模型；

1. 什么是AUC-ROC曲线？

AUC-ROC曲线是针对各种阈值设置下的分类问题的性能度量。ROC是概率曲线，AUC表示可分离的程度或测度，它告诉我们多少模型能够区分类别。AUC越高，模型在将0预测为0，将1预测为1时越好。实例中：AUC越高，该模型在区分有疾病和无疾病的患者中越好。

用TPR相对FPR绘制ROC曲线，其中TPR在y轴上，FPR在x轴上,如图

如何深刻理解 AUC-ROC 曲线？

2. 定义AUC和ROC曲线中使用的术语

TPR (真阳性率) / 召回 /敏感度

如何深刻理解 AUC-ROC 曲线？

特异性

如何深刻理解 AUC-ROC 曲线？

FPR

如何深刻理解 AUC-ROC 曲线？

3. 如何推测模型的性能?

出色的模型的AUC接近1，这意味着它具有良好的可分离性度量,较差的模型的AUC接近于0，这意味着它的可分离性度量最差。实际上，这意味着它正在回报结果。它预测0s但其实它是1s，1s但其实它是0s,当AUC为0.5时，表示模型没有类别分离能力。

让我们解释以上陈述：众所周知，ROC是概率曲线。因此，让我们绘制那些概率的分布

红色分布曲线为阳性（患有疾病的患者）绿色分布曲线为负级（无病患者）

TP: 真阳性

TN: 真阴性

FP: 假阳性

FN：假阴性

两类错误 简单来说，第一类错误，拒绝了实际上成立的，为“弃真”的错误；第二类错误，不拒绝实际上不成立的，为“存伪”的错误；

如何深刻理解 AUC-ROC 曲线？

这是一个理想的情况。当两条曲线完全不重叠时，表示模型具有理想的可分离性度量,完全能够区分正类和负类。

如何深刻理解 AUC-ROC 曲线？

当两个分布重叠时，我们引入type1和type2类错误，根据阈值，我们可以最小化或最大化它们。当AUC为0.7时，我们可以最小化或最大化它们。当AUC为0.7时，表示模型有70％的机会能够区分阳性类别和阴性类别。

如何深刻理解 AUC-ROC 曲线？

当AUC大约为0时，模型实际上使类往复。这意味着，模型将负类预测为正类，反之亦然

如何深刻理解 AUC-ROC 曲线？

4. 敏感度, 特异性, FPR and 阈值

灵敏度和特异性成反比。因此，当我们增加灵敏度时，特异性降低，反之亦然.

如何深刻理解 AUC-ROC 曲线？

当我们降低阈值时，我们会获得更多的正值，因此会增加灵敏度并降低特异性。众所周知，FPR是1-特异性。因此，当我们增加TPR时，FPR也会增加，反之亦然

如何深刻理解 AUC-ROC 曲线？

5. 如何将AUC ROC曲线用于多类模型

在多类模型中，我们可以使用“一”与“全部”方法绘制N个数类的N个AUC ROC曲线. 例如，如果您有三个名为X，Y和Z的类，则将有一个针对X的Y的ROC归类为Y和Z，另一个针对RO的Y的ROC归类为X和Z，而另一个Z的第三个ROC归类为Y和X

本文荟萃自知乎，只做学术交流学习使用，不做为临床指导，本文观点不代表数字重症立场。

人工智能信息网络

赞 (0)

打赏

微信扫一扫

神经网络的可解释性综述

上一篇 2022年4月30日下午4:58

图形解释偏差和方差

下一篇 2022年5月5日上午9:11