二元分类

本文介绍了二元分类中的过度拟合问题及其原因,包括噪声、训练数据不足和多重比较。接着讨论了泛化误差的估计方法,如乐观估计、悲观误差估计和最小描述长度原则。针对决策树的过度拟合,提出了先剪枝和后剪枝策略。此外,文章还探讨了评估分类器的不同方法,如保持法、随机二次抽样、交叉验证和自助法。最后,详细阐述了决策树、基于规则的分类和最近邻、贝叶斯分类器的工作原理及其特点,包括处理过度拟合、类别冲突和属性独立性假设等问题。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1、过分拟合问题:

       造成原因有:(1)噪声造成的过分拟合(因为它拟合了误标记的训练记录,导致了对检验集中记录的误分类);(2)根据少量训练记录做出分类决策的模型也容易受过分拟合的影响。(由于训练数据缺乏具有代表性的样本,在没有多少训练记录的情况下,学习算法仍然继续细化模型就会产生这样的模型,当决策树的叶节点没有足够的代表性样本时,很可能做出错误的预测)(3)多重比较也可能会导致过分拟合(大量的候选属性和少量的训练记录最后导致了模型的过分拟合)

 

2、泛化误差的估计:

       1)乐观估计(决策树归纳算法简单的选择产生最低训练误差的模型作为最终的模型)(2)悲观误差估计(使用训练误差与模型复杂度罚项的和计算泛化误差)(3)最小描述长度原则(模型编码的开销加上误分类记录编码的开销)(4)估计统计上界(泛化误差可以用训练误差的统计修正来估计,因为泛化误差倾向于比训练误差大,所以统计修正通常是计算训练误差的上界)(4)使用确认集(如2/3的训练集来建立模型,剩下的用来做误差估计)

 

3、处理决策树中的过分拟合:

       A):先剪枝(提前终止规则):当观察到的不纯性度量的增益(或估计的泛化误差的改进)低于某个确定的阈值时就停止扩展叶节点。B):初始决策树按照最大规模生长,然后进行剪枝的步骤,按照自底向上的方式修剪完全增长的决策树。修剪有两种方法:(1)用新的叶节点替换子树,该叶节点的类标号由子树下记录中的多数类确定;(2)用子树中常见的分支替代子树。当模型不能再改进时终止剪枝步骤。与先剪枝相比,后剪枝技术倾向于产生更好的结果。

 

4、评估分类器的方法:

       A):保持方法(用训练集的一部分来做训练一部分做检验,用检验的准确度来评估)(B)随机二次抽样(第一种方法进行K次不同的迭代,取其平均值)(C)交叉验证(每个记录用于训练的次数相同,并且用于检验恰好一次)(D)自助法(有放回抽样)

 

1.1、决策树分类

       算法思想:递归的选择一个属性对对象集合的类标号进行分类,如果分类到某一属性时发现剩下的对象属于同一类,此时就不必再选择属性就行分类,而只用创建一个叶节点并用共同的类来代表。否则,继续选择下一属性进行分类操作,直到某一分类结果全在同一类或者没有属性可供选择为止。根据选择属性的顺序可以将决策树算法分为ID3,C4.5等。其中,决策树算法CART只产生二元划分,它们考虑创建K个属性的二元划分的所有2^(k-1)-1中方法。图1显示了把婚姻状况的属性值划分为两个子集的三种不同的分组方法。对于连续属性来说,测试条件可以是具有二元输出的比较测试(A<v)或(

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值