
2011,47(28)
不平衡数据集通常指数据集中某个类别的样例数量明显
少于其他类别,而少数类样例往往对最终的分类结果起到至
关重要的影响
[1]
。类别不平衡问题是机器学习和数据挖掘领
域经常遇到的棘手问题,比如医疗诊断中,某种疾病出现的概
率总比正常情况少很多,但如果把病人误诊为正常人所付出
的代价要比把正常人误诊为病人付出的代价高很多
[2]
;金融系
统风险评估中坏账出现的概率总比正常业务出现的概率少很
多,但坏账所付出的代价比正常业务要高很多
[3]
;在单词自动
翻译过程中,机器为了追求更高的正确率往往将具有二义性
的单词翻译成常用词义
[4]
,忽视较偏词义,而现实世界中单词
词义的分布往往是非常偏的。另外在文本自动分类中通常也
会出现类似的不平衡问题
[5]
。
集成学习方法是指首先利用某种不稳定的学习算法在训
练集上训练出若干个基分类器,然后再对这些基分类器按照
集成学习方法组合成一个合成分类器。集成学习只对不稳定
的算法(如决策树、人工神经网络)有效,而对稳定的学习算法
(如贝叶斯算法等)效果不明显
[6]
。目前,集成学习中最主要的
两种学习方法是 Bagging(装袋)和 AdaBoost(提升)算法,这两
种算法都是利用投票(分类)或取平均值(数值预测)来组合各
个模型的输出,一般情况下这两种算法都会组合同一类型的
模型;所不同的是,装袋中的各个模型是单独建立的,而提升
是循环迭代的,每个新模型受先前已建模型性能表现的影
响。后来又有不少人在此基础上提出了很多改进的集成算
法,如SMOTE
[7]
、AdaCost
[8]
、AdaOUboost
[9]
和RareBoost
[10]
等算法。
大量理论分析和实验结果表明,由于集成学习利用了多
个分类器的预测结果而不是某一个分类器的预测结果,故可
一种适合不平衡数据集的新型提升算法
王灿伟
1,2,4
,于治楼
3
,张化祥
1
WANG Canwei
1,2,4
,YU Zhilou
3
,ZHANG Huaxiang
1
1.山东师范大学 信息科学与工程学院,济南 250014
2.山东工会管理干部学院 信息工程学院,济南 250100
3.浪潮集团有限公司,济南 250101
4.山东省分布式计算机软件新技术重点实验室,济南 250014
1.Department of Information Science and Engineering,Shandong Normal University,Jinan 250014,China
2.Department of Information and Engineering,Shandong Trade Union Cadre Institute,Jinan 250100,China
3.Inspur Group,Jinan 250101,China
4.Shandong Province Distributed Computer Software New Technique Key Laboratory,Jinan 250014,China
WANG Canwei,YU Zhilou,ZHANG Huaxiang.New algorithm of AdaBoost for unbalanced datasets.Computer Engineer-
ing and Applications,2011,47(28):169-172.
Abstract:A new training method of AdaBoost(ILAdaboost) which is good for unbalanced datasets is proposed in this paper.
The algorithm evaluates the original data with the base classifier of each iteration.It divides the original dataset into four
subsets,and then re-samples in the four subsets to form the balanced datasets,using for the base classifier learning in the
next iteration.Due to the inclination to the minority and the false classified majority in the process of re-sampling,the deci-
sion surface in using synthetic classifier deviates from the minority.Based on the experiment of the 10 classical unbalanced
datasets from UCI,the algorithm greatly increases the accuracy of minority and the GMA,keeping the accuracy of majority.
Key words:unbalanced dataset;ensemble learning;AdaBoost;re-sample
摘 要:提出了一种新的适用于不平衡数据集的 Adaboost 算法(ILAdaboost),该算法利用每一轮学习到的基分类器对原始数据
集进行测试评估,并根据评估结果将原始数据集分成四个子集,然后在四个子集中重新采样形成平衡的数据集供下一轮基分类
器学习,由于抽样过程中更加倾向于少数类和分错的多数类,故合成分类器的分界面会偏离少数类。该算法在 UCI 的10 个典型
不平衡数据集上进行实验,在保证多数类分类精度的同时提高了少数类的分类精度以及 GMA。
关键词:不平衡数据集;集成学习;AdaBoost;重采样
DOI:10.3778/j.issn.1002-8331.2011.28.046 文章编号:1002-8331(2011)28-0169-04 文献标识码:A 中图分类号:TP391
基金项目:山东省科技研究计划项目(No.2007ZZ17,No.2008GG10001015,No.2008B0026,No.ZR2010FM021);山东省教育厅科研项目(No.J09LG02)。
作者简介:王灿伟(1980—),男,讲师,主要研究方向:机器学习、数据挖掘;于治楼,通讯作者,男,研究员;张化祥,男,教授,博导。
收稿日期:2011-03-21;修回日期:2011-06-13;CNKI出版:2011-8-4;http://www.cnki.net/kcms/detail/11.2127.TP.20110804.1607.079.html
Computer Engineering and Applications计算机工程与应用
169