- 博客(8)
- 收藏
- 关注
原创 集成学习案例二 —— 蒸汽量预测
集成学习案例二 —— 蒸汽量预测 1 研究问题 本案例的主要研究问题是如何根据锅炉的工况,预测其产生的蒸汽量,下面对该问题的背景及该案例的具体数据情况进行简要的介绍。 1.1 背景介绍 火力发电的基本原理是:燃料在燃烧时加热水生成蒸汽,蒸汽压力推动汽轮机旋转,然后汽轮机带动发电机旋转,产生电能。在这一系列的能量转化中,影响发电效率的核心是锅炉的燃烧效率,即燃料燃烧加热水产生高温高压蒸汽。 锅炉的燃烧效率的影响因素很多,包括锅炉的可调参数,如燃烧给量,一二次风,引风,返料风,给水水量;以及锅炉的工况,比如锅炉
2021-07-31 22:04:19
489
原创 集成学习之stacking
集成学习之stacking 在前几个章节中,我们学习了关于回归和分类的算法,同时也讨论了如何将这些方法集成为强大的算法的集成学习方式,分别是Bagging和Boosting。本章我们继续讨论集成学习方法的最后一个成员–Stacking,这个集成方法在比赛中被称为“懒人”算法,因为它不需要花费过多时间的调参就可以得到一个效果不错的算法,同时,这种算法也比前两种算法容易理解的多,因为这种集成学习的方式不需要理解太多的理论,只需要在实际中加以运用即可。 stacking严格来说并不是一种算法,而是精美而又复杂的,
2021-07-28 23:10:16
860
2
原创 集成学习之Boosting
集成学习之Boosting 前文介绍的 Bagging 主要通过降低方差的方式减少预测误差,而本文介绍的 Boosting 方法的思想则截然不同,它是通过不断减少偏差来降低误差。 在采用 Boosting 方法的众多模型中,这里将会介绍两类常用的模型:AdaBoost 和 G 以及它们的变体 Xgboost 、LightGBM 以及 Catboost 。 Boosting方法 在正式介绍Boosting思想之前,我想先介绍两个例子: 第一个例子:不知道大家有没有做过错题本,我们将每次测验的错的题目记录在错题
2021-07-26 00:51:27
775
原创 集成学习之bagging
集成学习之bagging 投票法 在学习bagging之前,需要先介绍下投票法,它是集成学习中常用的技巧,可以帮助我们提高模型的泛化能力,减少模型的错误率。 投票法的具体流程 (a)基本思想 投票法的基本思路在于,一般情况下错误总是局部产生,因此融合多个模型结果可以减小误差。 投票法是一种遵循少数服从多数原则的集成学习模型,通过多个模型的集成降低方差,从而提高模型的鲁棒性。在理想情况下,投票法的预测效果应当优于任何一个基模型的预测效果。例如为了确保发送数据的准确性,一个常用的纠错方法是重复多次发送数据,并以
2021-07-23 00:17:47
801
2
原创 机器学习中的分类问题
分类问题 本文选择 iris 数据集作为分类问题的案例,使用 ROC 曲线作为评判模型分类效果的指标。 常用的分类模型 逻辑回归logistic regression 线性判别分析 线性判别分析( linear discriminant analysis,LDA )是由 Fisher 提出的一个经典的线性分类器,其实质是找到特征的线性组合做降维处理(和 PCA 类似),当然也可以从贝叶斯流派的角度去理解它,下面给出不同角度下对该分类器的推导。 (a) 降维分类的思想 基于数据进行分类时,一个很自然的想法是:
2021-07-20 23:30:10
584
1
原创 模型的优化
模型优化 之前对于回归问题的基本算法的介绍,展示了通过最小化损失函数的值来估计模型的参数,如线性回归中的 www 。接下来就需要评估所得到的模型效果,以及对该基础模型进行优化。 评估模型的基础概念 在建立模型前,我们已经介绍了评估模型几个特定指标。然而在评估与优化模型之前,需要明确以下几个概念,即使用那部分数据进行评估,以及模型的误差来源。 数据的划分 一般地,我们将损失函数最小化并得到模型参数的过程,称之为训练,所使用到的数据称之为训练集。 显然,在实际问题中我们甚至可以让损失函数在训练集最小化为 000
2021-07-19 00:07:31
1440
原创 机器学习中的回归问题
有监督学习中的回归问题 本文从机器学习的基本概念引出解决回归问题的算法及具体流程,主要介绍包含线性回归、回归树和支持向量回归这三种算法。 1 机器学习的基本概念 1.1 回归案例 sklearn内置数据集均封装在datasets对象内,可用 load_datasetname() 方法加载许多知名的小型机器学习数据集,而 fetch_datasetname() 方法可下载并载入一些大型数据集,其中 return_X_y 参数设置为 True 则可返回分离的特征向量与因变量数据。 加载数据集后,sklearn
2021-07-16 01:07:43
860
原创 机器学习数学基础
机器学习数学基础 总共可以分为五块:高数、线代、概率论与数理统计(考研三大块)、随机过程和mcmc抽样(最后两个严格意义上也属于数理统计的内容)。 本人是应统专业的,后面的就先鸽一下,前面高数线代的内容在这里先补充一下,其实大部分考研也学过,这里就展示下思维导图吧。 高等数学 线性代数 随机牛顿法及其代码实现 Rosenbrock函数 Rosenbrock函数是一个用来测试最优化算法性能的非凸函数,由Howard Harry Rosenbrock在1960年提出,因其函数形状类似香蕉,故别名为香蕉函数:
2021-07-14 00:52:21
550
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人