如何深刻理解 AUC-ROC 曲线?

在机器学习中,性能评估是必不可少的任务,因此,当涉及分类问题时,我们可以使用AUC-ROC曲线进行评价,当需要检查或可视化多类分类问题的性能时,我们使用AUC-ROC曲线,这是检查任何分类模型性能的最重要的评估指标之一。它也简写为AUROC。

为了更好地理解,建议您阅读有关混淆矩阵的文章。

该博客旨在回答以下问题:

  1. 什么是AUC-ROC曲线?
  2. AUC和ROC曲线中使用的术语;
  3. 如何推测模型的性能;
  4. 敏感性,特异性,FPR和阈值之间的关系;
  5. 如何将AUC-ROC曲线用于多类模型;

1. 什么是AUC-ROC曲线?

AUC-ROC曲线是针对各种阈值设置下的分类问题的性能度量。ROC是概率曲线,AUC表示可分离的程度或测度,它告诉我们多少模型能够区分类别。AUC越高,模型在将0预测为0,将1预测为1时越好。实例中:AUC越高,该模型在区分有疾病和无疾病的患者中越好。

用TPR相对FPR绘制ROC曲线,其中TPR在y轴上,FPR在x轴上,如图

如何深刻理解 AUC-ROC 曲线?

2. 定义AUC和ROC曲线中使用的术语

TPR (真阳性率) / 召回 /敏感度

如何深刻理解 AUC-ROC 曲线?

特异性

如何深刻理解 AUC-ROC 曲线?

FPR

如何深刻理解 AUC-ROC 曲线?

3. 如何推测模型的性能?

出色的模型的AUC接近1,这意味着它具有良好的可分离性度量,较差的模型的AUC接近于0,这意味着它的可分离性度量最差。实际上,这意味着它正在回报结果。它预测0s但其实它是1s,1s但其实它是0s,当AUC为0.5时,表示模型没有类别分离能力。

让我们解释以上陈述: 众所周知,ROC是概率曲线。因此,让我们绘制那些概率的分布

红色分布曲线为阳性(患有疾病的患者) 绿色分布曲线为负级(无病患者)

 TP: 真阳性

 TN: 真阴性

 FP: 假阳性

 FN:假阴性

两类错误 简单来说, 一类错误,拒绝了实际上成立的,为“弃真”的错误 ; 二类错误不拒绝实际上不成立的,为“存伪”的错误 ;

如何深刻理解 AUC-ROC 曲线?

这是一个理想的情况。当两条曲线完全不重叠时,表示模型具有理想的可分离性度量,完全能够区分正类和负类。

如何深刻理解 AUC-ROC 曲线?

当两个分布重叠时,我们引入type1和type2类错误,根据阈值,我们可以最小化或最大化它们。当AUC为0.7时,我们可以最小化或最大化它们。当AUC为0.7时,表示模型有70%的机会能够区分阳性类别和阴性类别。

如何深刻理解 AUC-ROC 曲线?

当AUC大约为0时,模型实际上使类往复。这意味着,模型将负类预测为正类,反之亦然

如何深刻理解 AUC-ROC 曲线?

4. 敏感度, 特异性, FPR and 阈值

灵敏度和特异性成反比。因此,当我们增加灵敏度时,特异性降低,反之亦然.

如何深刻理解 AUC-ROC 曲线?

当我们降低阈值时,我们会获得更多的正值,因此会增加灵敏度并降低特异性。 众所周知,FPR是1-特异性。因此,当我们增加TPR时,FPR也会增加,反之亦然

如何深刻理解 AUC-ROC 曲线?

5. 如何将AUC ROC曲线用于多类模型

在多类模型中,我们可以使用“一”与“全部”方法绘制N个数类的N个AUC ROC曲线. 例如,如果您有三个名为X,Y和Z的类,则将有一个针对X的Y的ROC归类为Y和Z,另一个针对RO的Y的ROC归类为X和Z,而另一个Z的第三个ROC归类为Y和X

本文荟萃自知乎,只做学术交流学习使用,不做为临床指导,本文观点不代表数字重症立场。

(0)
打赏 微信扫一扫 微信扫一扫
Chu的头像Chu
上一篇 2022年4月30日 下午4:58
下一篇 2022年5月5日 上午9:11

相关推荐