启言:
机器学习通过使用过去的经验去指导未来的决策,它的基础目标是归纳,或者从一种未知规则的应用例子中归纳出未知规则。
一、机器学习的定义
一个程序:性能体现在“T”,衡量性能用“P”,提升性能通过经验“E”
可视为:针对一些“T”类型,通过“P”来衡量性能的的任务,从经验“E”中进行学习
二、从经验“E”中学习(监督下和无监督下)
(1)监督学习:“对于输入数据X能预测变量Y”通过标记的输入和输出进行学习,并预测一个输入或输出,也就是:从“正确答案”的例子中进行学习。它在训练集中找规律,然后对测试数据运用这种规律。
常见的监督学习任务:分类和回归
1)分类:分类的目标变量是标称型的,以电影分类为例,一部电影无非是动作片、爱情片、喜剧片等类别。
常见的分类算法:
a.KNN:k-近邻算法,使用距离测量的方法进行分类
b.NaiveBayes:朴素贝叶斯,基于概率论的分类方法,贝叶斯公式。
c.DecisionTree:决策树,通过选区最优特征划分数据集,构建一棵树,表示我们的整个决策过程
d.LogisticRegression:逻辑回归,是一种分类算法,就是回归+Sigmoid函数
2)回归:而回归的目标变量是连续数值型的,如果预测某小区房价,则可能是任意正数了。
常见的回归算法:
a.LinearRegression:线性回归,有时也称回归
(2)无监督学习:“从数据X中能发现什么”,不从标记的数据中学习,它自己尝试在数据中发现模式。它没有训练集,只有一组数据,在该组数据集内寻找规律。(例:比如,一组颜色各异的积木,它可以按形状为维度来分类,也可以按颜色为维度来分类。分析数据集有什么特点都可以归于无监督学习方法的范畴)
常见的无监督学习任务:聚类和降维
1)聚类:将数据按相似度聚类(clustering)成不同的分组
常见的聚类方法:
K 均值聚类
2)降维(reducing dimensionality),以便在保留数据结构和有用性的同时对数据进行压缩
两种实际中很常用的降维技术:
主成分分析和奇异值分解
(3)机器学习术语:
输入变量:特征。
输出变量:响应变量,其他包括:回归变量、被解释变量、应答。
输入变量代表的现象:解释变量,其他包括:预测器、回归器。
该两个可以是实数值也可以是离散值。