不平衡数据流学习:方法、挑战与未来趋势
在数据挖掘领域,从不平衡数据流中学习是一个极具挑战性但又十分重要的课题。不平衡数据流的特点在于数据类别分布不均,且数据随时间不断变化,这使得传统的分类方法难以直接应用。本文将介绍多种处理不平衡数据流的集成学习方法、处理类别数量变化的策略以及获取真实标签的相关问题,并探讨该领域未来面临的挑战。
集成学习方法
集成学习是处理不平衡数据流的常用方法,以下是几种常见的集成学习方法:
| 方法 | 原理 | 特点 | 局限性 |
| — | — | — | — |
| 序列集成(SE) | 使用所有收集的正例与从新数据块中随机选择的负例子集组合训练分类器,子集大小根据当前类别不平衡率动态计算,新训练的分类器加入现有集成,采用多数投票进行分类器组合,维护有限数量最新数据块的实例,有固定和衰减两种策略 | 假设所有少数类实例都被存储和用于训练新分类器 | 在少数类概念漂移的场景中使用受限 |
| 选择性递归方法(SERA) | 是SE的扩展,对少数类进行选择性采样,使用马氏距离选择最相关的少数类实例与近期数据块中的实例组合,对多数类采用Bagging方法减少实例数量 | 缓解了SE在少数类漂移方面的局限性 | 对少数类实例数量的选择高度敏感 |
| 递归集成方法(REA) | SERA的进一步扩展,应用k - NN原理测量新旧少数类实例的相似度,保留最具多样性的实例,为每个基分类器分配反映其在最新数据块上性能的权重 | - | - |
| 边界定义集成(BD) | 加权集成,将少数类和多数类实例传播到新数据块,以改善不断演变的类边界的学习过程,使用信息增益和Hellinger距离组合测量数据块之间的相似度,实现隐式