机器学习
机器学习的分类:
– 监督学习
– 无监督学习
– 半监督学习
– 强化学习
机器学习任务
监督学习
– 定义:训练是提供学习系统训练样本即样本对应标签,也城有导师学习
– 最终目标:根据学习过程获得经验技能,对没学习过的问题也可作出正确解答,使计算机获得这种泛化能力
– 典型监督学习方法:决策树,支持向量机,监督式神经网络等分类算法和线性回归等回归算法
– 应用:手写文字识别,声音处理,图像处理,垃圾邮件分类与拦截,网页检索,基因诊断,股票预测
– 典型任务:预测分类标签的分类,预测顺序的排列,预测数值型数据的回归
无监督学习
– 定义:主要特点是训练只提供学习系统的训练样本,而没有样本对应的类别标签
– 最终目标:无监督学习不局限于解决有正确答案的问题,所以目标可不必十分明确
– 典型无监督学习方法:聚类学习,自组织神经网络学习
– 应用:人造卫星故障诊断,视频分析,社交网站解析,声音信号解析,数据可视化,监督学习的前处理工具等
– 典型任务:聚类,异常检测
半监督学习
– 定义:在半监督学习方式下,训练数据有部分被标识,部分没有被标识,这种模型首先学习数据的内在结构,以便合理的组织数据来进行预测;算法上,包括一些对常用监督式学习算法的延伸,这些算法首先试图对标识数据进行建模,在此基础上再对未标识的数据进行预测
强化学习
– 定义:通过试错来发现最优行为策略而不是带有标签的样本学习;强化学习被认为是人类主要学习模式之一
– 最终目标:使计算机获得对没学习过问题也可作出正确解答的泛化能力
– 应用:机器人的自动控制,计算机游戏中的人工智能,市场战略的最优化
– 典型任务:回归,分类,聚类,降维
分类问题:根据数据样本抽取的特征,判定其属于有限个类别中哪一个;在实际分类中,大多产生一个概率值,对概率值做排序得到该样本属于哪个类别的概率最高
回归问题:根据样本抽取特征,预测连续值结果;属于有监督学习
聚类问题:根据数去样本抽取特征,挖掘出数据的关联模式
强化学习:研究如何基于环境而行动,以获得最大预期收益
强化学习关键因素:environment, reward,action and state
强化学习解决问题是:针对一个具体问题得到一个最优策略,使得在该策略下获得的reward最大
机器学习流程:数据预处理,模型学习,模型评估,新样本预测
机器学习分类评价标准:混淆矩阵
机器学习回归评价标准:
– mean squared error
– 均方根误差(RMSE)
scikit-learn:专门针对机器学习的python包
线性回归
回归分析
– 统计学方法,了解两个或多个变量是否相关,研究其相关方向和强度
– 帮助了解自变量变化时因变量的变化量,可有自变量估计因变量的条件期望
机器学习任务