
数据挖掘-实用机器学习技术-读书笔记
lyn5284767
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
第五章-5.7计算成本
对于一个二类问题,可以分为正确的肯定(true positive)、正确的否定(true negative)、错误的肯定(false positive)和错误的否定(false negative)。其误差率为: 为了衡量预测结果和分类结果的之间的一致性,Kappa统计量被提出。通常kappa是落在 0~1 间,可分为五组来表示不同级别的一致性:0.0~0.20...原创 2018-05-10 16:12:30 · 1062 阅读 · 0 评论 -
第六章-6.1决策树
图1对上决策树,采用C4.5进行裁剪。通常C4.5采用C=25%的置信度来计算,对应的置信度标准差z=0.69,。对于误差率e的估计为: 其中,f为误差率f=E/N,E为错误分类数量,N为总数。则有,图1中,健康计划-None的分支有4个bad(错误分类),2个good(正确分类),f=0.33,e=0.47;同理,健康计划-H...原创 2018-05-11 11:28:27 · 563 阅读 · 1 评论 -
第六章-6.2分类规则
一般数据会分为两部分:成长集(2/3)和修剪集(1/3)。成长集用于生成规则,修剪集用于调整规则。转载 2018-05-14 10:58:49 · 1257 阅读 · 0 评论 -
第六章-6.6聚类
使用聚类进行分类,但是聚类个数未知,一般有两种解决方法:1,对不同的个数进行试验,计算每个类聚离中心距离和是多少,选择最小值作为类聚个数;2,选择较少的聚类个数,分类完成后,在聚类边界再建立一个中心,将此聚类分裂为两个,然后在根据需要判定是否继续分裂。接下来,将用效用类别衡量类聚的总体质量。...转载 2018-05-25 14:39:47 · 1058 阅读 · 0 评论 -
第六章-6.7贝叶斯网络
一个有向无环图,每一个节点表示一个属性,节点间用有向连接线连接。示例:假定,阴晴=rainy,温度=cool,湿度=high,刮风=true,计算玩的概率。根据上图可以算出 阴晴=rainy&play=no的概率为0.385,温度=cool&play=no&阴晴=rainy的概率为0.429,湿度=high&play=no&温度=cool的概率为0.25,刮...原创 2018-05-25 17:21:50 · 398 阅读 · 0 评论 -
第 七章-7.1属性选择
选择一个好的属性子集,有两种方法:1,根据数据的普遍特性做出一个独立评估,称为过滤;2,采用最终将要评估机器学习的算法评估子集,称为包装。用机器学习的方法进行分类的时候,经常会有无关属性和重复属性干扰,为了去除干扰,我们选择一个属性子集,子集与类属性有较大关联,但是自身内部无关联。两个属性A,B之间可以用对称不定性衡量: 其中,H为熵函数,H(A,B)为联合熵。...原创 2018-05-28 15:28:51 · 232 阅读 · 0 评论 -
第六章-6.3扩展线性模型
利用支持向量机把数据转化到超平面,成为线性模型。最大边际超平面是指最大限度分割两个类的超平面;类中距离最大边际超平面最近的点为支持向量。...原创 2018-05-24 10:19:05 · 730 阅读 · 0 评论