Cleanlab教程：使用交叉验证计算样本外预测概率-CSDN博客

本文链接：https://blog.csdn.net/gitblog_00471/article/details/148415591

Cleanlab教程：使用交叉验证计算样本外预测概率

cleanlab The standard data-centric AI package for data quality and machine learning with messy, real-world data and labels. 项目地址: https://gitcode.com/gh_mirrors/cl/cleanlab

引言

在机器学习项目中，数据标签质量对模型性能有着决定性影响。Cleanlab作为一个强大的开源工具，能够帮助我们发现数据集中的标签问题。然而，要充分发挥Cleanlab的作用，我们需要为其提供正确的输入——样本外预测概率(out-of-sample predicted probabilities)。本文将详细介绍什么是样本外预测概率，以及如何通过交叉验证技术来获取它们。

什么是预测概率？

预测概率是指分类模型对每个数据点属于各个类别的概率估计。例如，在一个猫狗分类模型中，对于某张图片，模型可能预测它有90%的概率是猫，10%的概率是狗。这些概率值反映了模型对分类结果的置信度。

为什么需要样本外预测概率？

样本外预测概率特指模型在训练过程中从未见过的数据上做出的预测。与之相对的是样本内预测概率，即在训练数据上的预测。样本内预测通常会过于自信(overconfident)，无法真实反映模型的泛化能力，因此不适合用于检测标签问题。

Cleanlab正是利用这些样本外预测概率来识别潜在的标签错误。如果使用样本内预测，Cleanlab的效果会大打折扣。

交叉验证技术

为了在整个数据集上获得样本外预测概率，我们可以使用K折交叉验证(K-fold cross-validation)技术。这种方法不仅用于模型评估，也是获取全量数据样本外预测的理想方案。

K折交叉验证原理

将整个数据集随机划分为K个大小相似的互斥子集(称为"折")
训练K个模型副本，每个副本使用K-1折数据训练，并在剩下的1折数据上预测
每个数据点都会被一个模型副本预测，而这个模型副本在训练时没有见过该数据点
最终将所有预测结果合并，就得到了整个数据集的样本外预测概率

实现示例

以下是K=3时的伪代码实现：

# 步骤0：将数据分为三个等份：A、B、C

# 步骤1：获取A的样本外预测概率
model = Model()
model.fit(data=B+C)  # 使用B和C训练
out_of_sample_pred_probs_for_A = model.pred_proba(data=A)

# 步骤2：获取B的样本外预测概率
model = Model()
model.fit(data=A+C)  # 使用A和C训练
out_of_sample_pred_probs_for_B = model.pred_proba(data=B)

# 步骤3：获取C的样本外预测概率
model = Model()
model.fit(data=A+B)  # 使用A和B训练
out_of_sample_pred_probs_for_C = model.pred_proba(data=C)

# 最终步骤：合并所有预测概率
out_of_sample_pred_probs = concatenate([
    out_of_sample_pred_probs_for_A,
    out_of_sample_pred_probs_for_B,
    out_of_sample_pred_probs_for_C,
])