李航统计学习第一章-概论

本文介绍了统计学习方法,包括监督学习的基本假设、统计学习的三要素——模型、策略和算法,以及解决过拟合的正则化方法。详细阐述了L1和L2范数的区别,并探讨了交叉验证的种类,如简单交叉验证和S折交叉验证。同时,对比了生成模型与判别模型的特点,并总结了分类问题的评价指标,如精确率、召回率和F1值。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1、统计学习方法

监督学习,非监督学习,半监督学习,强化学习等。

2、监督学习

输入X和输出Y具有联合分布概论的假设是监督学习关于数据的基本假设。

  • 输入空间
  • 特征空间
  • 假设空间 :监督学习的目的在于学习一个由输入到输出的映射,这一映射由模型来表示,模型属于由输入空间到输出空间的映射的集合,这个集合就是假设空间
3、统计学习三要素

方法 = 模型 + 策略 + 算法

  • 模型:所要学习的条件概率分布或决策函数。
  • 策略:按照什么样的准则学习或者选择最优的模型。我将它理解为如何制定目标函数。
  • 算法:学习模型的具体计算方法。我将它理解为如何求解目标函数最优化的方法,例如深度学习中的BP等。
4、 解决过拟合的方法

正则化

让所求的参数具有稀疏性,增加泛化能力。

交叉验证

重复地使用数据,把给定的数据进行切分,将切分的数据集组合为训练集和测试集,在此基础上反复地进行训练、测试以及模型的选择。

  • 简单交叉验证首先数据集切分成训练集,测试集两部分(例如70%训练,30%测试);其次 用训练集在各种条件下(例如,不同参数个数)训练模型,从而得到不同的模型;最后 在测试集上评价各个模型的训练误差,选出测试误差最小的模型。
  • S折交叉验证首先随机的将数据切分为S个互不相交的大小相同的子集;其次 利用S-1个自己的数据训练模型,利用余下的自己测试模型;然后 将这一过程对可能的S种选择重复进行;最后 选出S次评测中平均测试误差最小的模型。
  • 留一交叉验证:将S折中的测试集变成一个数据样本,即为留一交叉验证。
5、生成模型与判别模型

生成方法

  • 可以还原出联合概率分布P(X,Y)
  • 学习收敛速度快,即当样本容量增加的时候,学到的模型可以更快的收敛于真实模型。
  • 当存在隐变量时,仍可以用生成方法学习。
  • 朴素贝叶斯,隐马尔科夫模型

判别方法

  • 直接学习条件概率P(Y|X)或决策函数f(X),直接面对预测,往往学习的准确率更高。
  • 对数据进行某种程度上的抽象、定义特征并使用特征,可以简化学习问题。
  • k近邻法、感知机、决策树、logist回归模型,最大熵模型,支持向量机,提升方法,条件随机场
6、分类问题评价方法

TP —— 将正类预测为正类数
FN —— 将正类预测为负类数
FP —— 将负类预测为正类数
FN —— 将负类预测为负类数

精确率: P = T P T P + F P P=\frac{TP}{TP+FP} P=TP+FPTP

召回率: P = T P T P + F N P=\frac{TP}{TP+FN} P=TP+FNTP

F1值: 2 F 1 = 1 P + 1 R \frac{2}{F1}=\frac{1}{P}+\frac{1}{R} F12=P1+R1

精确度召回率都高时,F1值也会高。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值