机器学习之类别不平衡问题 (2) —— ROC和PR曲线

最新推荐文章于 2024-06-26 14:41:46 发布

原创

最新推荐文章于 2024-06-26 14:41:46 发布 · 4.8k 阅读

34 ·

CC 4.0 BY-SA版权

本文详细探讨了ROC曲线和PR曲线在类别不平衡问题中的应用。ROC曲线通过真正例率(TPR)和假正例率(FPR)展示了模型在不同阈值下的表现，而PR曲线则关注Precision和Recall。ROC曲线适用于评估整体性能，不受类别分布影响，而PR曲线更适合关注正例。在类别不平衡问题中，PR曲线通常提供更准确的评估。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

机器学习之类别不平衡问题 (1) —— 各种评估指标
机器学习之类别不平衡问题 (2) —— ROC和PR曲线

完整代码

ROC曲线和PR（Precision - Recall）曲线皆为类别不平衡问题中常用的评估方法，二者既有相同也有不同点。本篇文章先给出ROC曲线的概述、实现方法、优缺点，再阐述PR曲线的各项特点，最后给出两种方法各自的使用场景。

ROC曲线

这里写图片描述
ROC曲线常用于二分类问题中的模型比较，主要表现为一种真正例率 (TPR) 和假正例率 (FPR) 的权衡。具体方法是在不同的分类阈值 (threshold) 设定下分别以TPR和FPR为纵、横轴作图。由ROC曲线的两个指标， $TPR = \frac{TP}{P} = \frac{TP}{TP+FN}$ ， $FPR = \frac{FP}{N} = \frac{FP}{FP+TN}$ 可以看出，当一个样本被分类器判为正例，若其本身是正例，则TPR增加；若其本身是负例，则FPR增加，因此ROC曲线可以看作是随着阈值的不断移动，所有样本中正例与负例之间的“对抗”。曲线越靠近左上角，意味着越多的正例优先于负例，模型的整体表现也就越好。