机器学习概述
目标
- 了解人工智能发展历程
- 了解人工智能概述
- 机器学习工作流程
- 机器学习算法分类
- 模型评估
1.1 人工智能发展
-
案例
- 参考链接:https://quickdraw.withgoogle.com
- 参考链接:https://pjreddie.com/darknet/yolo/
- 参考链接:https://deepdreamgenerator.com/
-
图灵测试
-
测试者与被测试者(一个人和一台机器)隔开的情况下,通过一些装置(如键盘)向被测试者随意提问。
多次测试(一般为5min之内),如果有超过30%的测试者不能确定被测试者是人还是机器,那么这台机器就通过了测试,并被认为具有人类智能。
-
-
发展历程
-
1956年是人工智能元年。
第一个黄金时期(1956—20世纪70年代)
第二个黄金时期(1956—20世纪70年代)
第一个低谷时期(20世纪70年代至80年代初)
第二个低谷时期(20世纪80年代至90年代初)
1990-2010年代是蓬勃发展期,诞生了众多的理论和算法,真正走向了实用
2012年之后是深度学习期,深度学习技术诞生并急速发展,较好的解决了现阶段AI的一些重点问题,并带来了产业界的快速发展
-
1.2 人工智能概述
-
主要分支
-
人工智能、机器学习和深度学习
机器学习是人工智能的一个实现途径
深度学习是机器学习的一个方法发展而来
-
分支介绍
-
计算机视觉
计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。物体检测和人脸识别是其比较成功的研究领域。
-
语音识别
语音识别是指识别语音(说出的语言)并将其转换成对应文本的技术。如:百度语音识别。
-
文本挖掘、分类
**这里的文本挖掘主要是指文本分类,该技术可用于理解、组织和分类结构化或非结构化文本文档。**其涵盖的主要任务有句法分析、情绪分析和垃圾信息检测。
-
机器翻译
机器翻译(MT)是利用机器的力量自动将一种自然语言(源语言)的文本翻译成另一种语言(目标语言)。
-
机器人
机器人学(Robotics)研究的是机器人的设计、制造、运作和应用,以及控制它们的计算机系统、传感反馈和信息处理。
机器人可以分成两大类:固定机器人和移动机器人。
-
-
-
发展三要素
-
数据
-
算法
-
计算力
-
GPU与CPU对比
-
什么类型的程序适合在GPU上运行?
计算密集型的程序。
易于并行的程序。
-
-
-
1.3 机器学习工作流程
-
机器学习是从数据中自动分析获得模型,并利用模型对未知数据进行预测。
-
工作流程
-
总结
1.获取数据
2.数据基本处理
3.特征工程
4.机器学习(模型训练)
5.模型评估
-
-
数据集
-
数据简介
一行数据我们称为一个样本
一列数据我们称为一个特征
有些数据有目标值(标签值),有些数据没有目标值
-
类型构成
数据类型一:特征值+目标值(目标值是连续的和离散的)
数据类型二:只有特征值,没有目标值
-
数据分割
-
划分
训练数据:用于训练,构建模型
测试数据:在模型检验时使用,用于评估模型是否有效
-
比例
训练集:70% 80% 75%
测试集:30% 20% 25%
-
-
基本处理
即对数进行缺失值、去除异常值等处理
-
-
特征工程
特征工程是使用专业背景知识和技巧处理数据,使得特征能在机器学习算法上发挥更好的作用的过程。
直接影响机器学习的效果。数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。
-
包含
-
特征提取
特征提取:将任意数据(如文本或图像)转换为可用于机器学习的数字特征
-
特征预处理
特征预处理:通过一些转换函数将特征数据转换成更加适合算法模型的特征数据过程
-
特征降维
特征降维:指在某些限定条件下,降低随机变量(特征)个数,得到一组“不相关”主变量的过程
-
-
1.4 机器学习算法分类
根据数据集组成不同,可以把机器学习算法分为:监督学习、半监督学习、无监督学习、强化学习。
-
监督学习
输入数据是由输入特征值和目标值所组成。函数的输出可以是一个连续的(回归),或是输出是有限个离散值(分类)。
In:有标签,Out:有反馈。
-
回归
例如:预测房价,根据样本集拟合出一条连续曲线。
线性回归、岭回归
-
分类
例如:根据肿瘤特征判断良性还是恶性,得到的是结果是“良性”或者“恶性”,是离散的。
k-近邻算法、贝叶斯分类、决策树与随机森林、逻辑回归、神经网络
-
-
无监督学习
输入数据是由输入特征值组成。
In:无标签,Out:无反馈。“物以类聚,人以群分”。
输入数据没有被标记,也没有确定的结果。样本数据类别未知,需要根据样本间的相似性对样本集进行分类(聚类,clustering)试图使类内差距最小化,类间差距最大化。
k-means,降维
-
半监督学习
即训练集同时包含有标记样本数据和未标记样本数据。
-
强化学习
实质是,make decisions 问题,即自动进行决策,并且可以做连续决策。
主要包含四个元素:agent,环境状态,行动,奖励;
强化学习的目标就是获得最多的累计奖励。
In:决策流程及激励系统,Out:一系列行动。
马尔科夫决策,动态规划
监督学习和强化学习的对比:
1.5 模型评估
-
分类模型评估
-
准确率
预测正确的数占样本总数的比例。
-
精准率
正确预测为正占全部预测为正的比例
-
召回率
正确预测为正占全部正样本的比例
-
F1-score
主要用于评估模型的稳健性
-
AUC指标
主要用于评估样本不均衡的情况
-
-
回归模型评估
-
均方根误差(Root Mean Squared Error,RMSE)
RMSE是一个衡量回归模型误差率的常用公式。 然而,它仅能比较误差是相同单位的模型。
-
相对平方误差(Relative Squared Error,RSE)
与RMSE不同,RSE可以比较误差是不同单位的模型。
-
平均绝对误差(Mean Absolute Error,MAE)
MAE与原始数据单位相同, 它仅能比较误差是相同单位的模型。量级近似与RMSE,但是误差值相对小一些。
-
相对绝对误差(Relative Absolute Error,RAE)
与RSE不同,RAE可以比较误差是不同单位的模型。
-
决定系数 (Coefficient of Determination)
决定系数 (R2)回归模型汇总了回归模型的解释度,由平方和术语计算而得。
R2描述了回归模型所解释的因变量方差在总方差中的比例。R2很大,即自变量和因变量之间存在线性关系,如果回归模型是“完美的”,SSE为零,则R2为1。R2小,则自变量和因变量之间存在线性关系的证据不令人信服。如果回归模型完全失败,SSE等于SST,没有方差可被回归解释,则R2为零。
-
-
拟合
模型评估用于评价训练好的的模型的表现效果,其表现效果大致可以分为两类:过拟合、欠拟合。
-
欠拟合
因为机器学习到的天鹅特征太少了,导致区分标准太粗糙,不能准确识别出天鹅。
-
过拟合
所建的机器学习模型或者是深度学习模型在训练样本中表现得过于优越,导致在验证数据集以及测试数据集中表现不佳。
机器已经基本能区别天鹅和其他动物了。然后,很不巧已有的天鹅图片全是白天鹅的,于是机器经过学习后,会认为天鹅的羽毛都是白的,以后看到羽毛是黑的天鹅就会认为那不是天鹅。
-
小结
关于人工智能以及机器学习分类、流程、模型评估等方面的基本知识,这篇文章基本都已经覆盖了,后续我会更加认真的学习、思考、总结。期待能够在机器学习的领域有更大的收获。
有兴趣的小伙伴可以关注公众号:EZ大数据。每天学习一点点,感觉是真的爽!