没有合适的资源?快使用搜索试试~ 我知道了~
资源推荐
资源详情
资源评论






























机器学习整理资料
1、学习方法:
二分类:每个分类器只能把样本分为两类。瓦普尼克 95 年提出来基础的
支持向量机就是个二分类的分类器,这个分类器学习过 程就是解一个
基于正负二分类推导而来的一个最优规划问题(对偶问题),要解决多分
类问题 就要用决策树把二分类的分类器级联,VC 维的概念就是说的这
事的复杂度。
多分类问题: 针对不同的属性训练几个不同的弱分类器,然后将它们集
成为一个强分类器。
层次聚类: 创建一个层次等级以分解给定的数据集。此方法分为自上而
下(分解)和自下而上(合并)两种操作方式。
K-中心点聚类:挑选实际对象来代表簇,每个簇使用一个代表对象。它是
围绕中心点划分的一种规则
回归分析:处理变量之间具有相关性的一种统计方法
结构分析: 结构分析法是在统计分组的基础上,计算各组成部分所占比
重,进而分析某一总体现象的内部结构特征、总体的性质、总体内部结构
依时间推移而表现出的变化规律性的统计方法。结构分析法的基本表现形
式,就是计算结构标。
2、监督学习算法:
决策树、朴素贝叶斯、逻辑回归、KNN、SVM、神经网络、随机森林、
AdaBoost、遗传算法
无监督学习算法:

聚类、关联规则、训练/学习、预测、K-Means、BIRCH、Apriori
3、Nave Bayes 是一种特殊的 Bayes 分类器,特征变量是 X,类别标签是 C,
它的一个假定是: 特征变量 X 的各个维度是类别条件独立随机变量
朴素:特征条件独立
贝叶斯:基于贝叶斯定理
4、CRF(条件随机场算法)模型对于 HMM(隐马尔可夫模型)和 MEMM(最
大熵隐马尔科夫模型)模型的优势: 特征灵活、可容纳较多上下文信息、
全局最优
三者的比较、优点:
(1)CRF 没有 HMM 那样严格的独立性假设条件,因而可以容纳任意的上下
文信息。特征设计灵活(及 ME 一样) ————及 HMM 比较
(2)同时,由于 CRF 计算全局最优输出节点的条件概率,它还克服了最
大熵马尔可夫模型标记偏置(Label-bias)的缺点。 ————及 MEMM 比
较
(3)CRF 是在给定需要标记的观察序列的条件下,计算整个标记序列的联
合概率分布,而不是在给定当前状态条件下,定义下一个状态的状态分布。
————及 ME 比较
缺点:训练代价大、复杂度高

5、KNN 算法:
K-NN 算法通过计算新数据及训练数据特征值之间的距离, 然后选取 K
(K>=1) 个距离最近的邻居进行分类或者回归. 如果 K = 1 , 那么新数据
将被分配给其近邻的类
k-NN 最近邻方法在样本较少但典型性好的情况下效果较好.
6、在 HMM 中,如果已知观察序列和产生观察序列的状态序列,极大似然估
计方法直接进行参数估计。
EM 算法: 只有观测序列,无状态序列时来学习模型参数,即 Baum-Welch
算法
维特比算法: 用动态规划解决 HMM 的预测问题,不是参数估计
前向后向:用来算概率
极大似然估计:即观测序列和相应的状态序列都存在时的监督学习算法,
用来估计参数
7、常见的判别模型有:
支持向量机 传统的神经网络
线性判别分析 线性回归 逻辑回归 最近邻
CRF Boosting
产生式模型常见的主要有:
高斯 朴素贝叶斯 混合多项式
混合高斯模型 专家的混合物
隐马尔可夫模型 马尔可夫的随机场

HMMs Sigmoidal Belief Networks,
Bayesian Networks Markov Random Fields Latent Dirichlet
Allocation
8、已知一组数据的协方差矩阵 P,
1、主分量分析的最佳准则是对一组数据进行按一组正交基分解, 在只取
相同数量分量的条件下,以均方误差计算截尾误差最小
2、在经主分量分解后,协方差矩阵成为对角矩阵
3、主分量是通过求协方差矩阵的特征值得到
4、K-L 变换及 PCA 变换是不同的概念,PCA 的变换矩阵是协方差矩阵,K-L
变换的变换矩阵可以有很多种(二阶矩阵、协方差矩阵、总类内离散度矩
阵等等)。当 K-L 变换矩阵为协方差矩阵时,等同于 PCA。
9、假定某同学使用 Naive Bayesian(NB)分类模型时,不小心将训练数
据的两个维度搞重复了,1、模型效果相比无重复特征的情况下精确度会
降低 2、当两列特征高度相关时,无法用两列特征相同时所得到的结论
来分析问题
10、SVM 是这样一个分类器,他寻找具有最小边缘的超平面,因此它也经
常被称为最小边缘分类器(minimal margin classifier)
在聚类分析当中,簇内的相似性越大,簇间的差别越大,聚类的效果就越
差。
在决策树中,随着树中结点数变得太大,即使模型的训练误差还在继续减
低,但是检验误差开始增大,这是出现了模型拟合不足的问题。

11、SPSS(统计产品及服务解决方案”软件)中,数据整理的功能主要集
中在(数据、转换 )等菜单中
12、数据清理中,处理缺失值的方法有两种:
删除法:
1)删除观察样本
2)删除变量:当某个变量缺失值较多且对研究目标影响不
大时,可以将整个变量整体删除
3)使用完整原始数据分析:当数据存在较多缺失而其原
始数据完整时,可以使用原始数据替代现有数据进行分析
4)改变权重:当删除缺失数据会改变数据结构时,通过
对完整数据按照不同的权重进行加权,可以降低删除缺失数据带来的偏差
查补法:均值插补、回归插补、抽样填补等
成对删除及改变权重为一类;估算及查补法为一类
13、卡方检验是用途非常广的一种假设检验方法,它在分类资料统计推断
中的应用,包括:两个率或两个构成比比较的卡方检验;多个率或多个构
成比比较的卡方检验以及分类资料的相关分析等。
14、规则化是结构风险最小化策略的实现,是在经验风险上加一个正则化
项(regularizer)或惩罚项(penalty term)。
1、L1 范数和 L0 范数可以实现稀疏,L1 因具有比 L0 更好的优化求解特性
而被广泛应用。L1 正则化偏向于稀疏,它会自动进行特征选择,去掉一些
剩余40页未读,继续阅读
资源评论


SlumberingPerson
- 粉丝: 3
上传资源 快速赚钱
我的内容管理 展开
我的资源 快来上传第一个资源
我的收益
登录查看自己的收益我的积分 登录查看自己的积分
我的C币 登录后查看C币余额
我的收藏
我的下载
下载帮助


最新资源
- 2021年专业技术工作总结(通信公司技术员).doc
- 桥梁工程架梁施工方案.ppt
- 操纵、水渣、除尘岗位职业健康安全技术操作规程.doc
- revit教程十四-平面视图处理.pptx
- [重庆]安全文明施工标准化管理做法(含多图).ppt
- 消防设施的维护保养方案.doc
- 第6章一阶电路.ppt
- SBR及SBR变形工艺.ppt
- 单电源开式网络继电保护方案设计本科.doc
- YOLOv C推理使用多个frameworks_ncnn、OpenVINO、MNN、ONNXRuntime和OpenCV
- 网络培训教育的心得体会.doc
- 通信原理夏历年考试.doc
- [重庆]商住楼工程高支模工程施工方案.doc
- 光电综合缆接续工法.pdf
- 边坡治理工程施工图设计.docx
- 岗位说明书编写的注意事项.doc
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈



安全验证
文档复制为VIP权益,开通VIP直接复制
