浅谈主动学习（Active Learning）

最新推荐文章于 2024-06-05 16:23:13 发布

原创最新推荐文章于 2024-06-05 16:23:13 发布 · 2.3k 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#机器学习 #主动学习

机器学习专栏收录该内容

117 篇文章

订阅专栏

本文深入解析主动学习原理，探讨其如何提高样本利用效率，降低数据标注成本，特别适用于高标注代价场景，如金融风控和图像语音模型训练。通过闭环流程，主动学习能够智能筛选高信息熵样本进行精细标注，实现模型迭代优化。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1背景概述

在机器学习领域有很多学习模式，比方说监督学习、半监督学习、强化学习、无监督学习等。平时大家接触比较多的一般都是监督学习，在监督学习里面，比方说要做个人和鱼的图像分类模型，假设有200张图片，那就需要把这200张样本都打好标记再训练。

监督学习存在很多问题，比如最直接的一点，当样本打标成本很高的时候，比如要标记一个人脸，可能需要在图片上打上百个点，用监督学习很消耗资源。

主动学习（Active Learning）很好地解决了这个问题，主动学习的本质是让训练样本的利用率最大化，今天就来介绍下主动学习的一些内容。

2Active Learning基本原理

ActiveLearning的基本逻辑很好理解，就是构建一个打标和训练流程的闭环，有点类似于boosting算法。

在ActiveLearning中，不需要训练样本全部打标，可以先打标部分样本，然后跑一次分类模型，接着对未打标样本做一次预测。可以根据预测结果将未打标样本分成两类，一类是不确定性大，也就是信息熵大的样本，另一类是不确定性小但是信息熵也小的样本。然后针对信息熵大的样本再次训练。

这里面有个问题，什么叫不确定性大的样本呢？还是举文章开篇的例子，假设做人和鱼的分类模型，什么样的样本是不确定性高的呢？当然是哪种很难分辨人还是鱼的样本，比如美人鱼，哈哈。

总结下，ActiveLearning的本质就是先标记部分样本，然后训练一个简单分类模型，通过这个模型找到高信息熵样本并打标，然后再重新用新训练集finetune模型。

3业务价值

ActiveLearning显而易见的一个业务价值就是比较节省数据打标资源。很多论文已经讲了ActiveLearning在一些场景下的优势。

我个人感觉，ActiveLearning会在一些数据样本打标代价很高的场景落地，比如金融风控领域的负样本模型训练、图像语音的模型训练。

另外，一些云端机器学习平台产品如果可以集成Active Learning的能力对客户是很有吸引力的。虽然我还没机会做这种产品的设计，但是可以预想到未来云上的机器学习平台，能否对高信息熵样本做主动学习，将是一个重要的用户抓手。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。