机器学习入门之监督学习(一)有监督学习
简介
监督学习算法是常见算法之一,主要分为有监督学习和无监督学习。本文主要记录了有监督学习中的分类算法和回归算法,其中回归算法是本文最主要内容。
本笔记对应视频:阿里云开发者社区学习中心-人工智能学习路线-阶段1:机器学习概览及常见算法
对应视频地址:机器学习概览及常见算法-阿里云开发者社区
监督学习
定义:利用已知类别的样本
,训练学习得到一个最优模型,使其达到所要求性能,再利用这个训练所得模型,将所有的输入映射为相应的输出,对输出进行简单的判断,从而实现分类的目的,即可以对未知数据进行分类。
监督学习分为:有监督学习,无监督学习,半监督学习
本文内容主要介绍有监督学习和无监督学习相关算法
有监督学习
有监督学习( Supervised learning ) :利用一组已知类别的样本来训练模型,使其达到性能要求。
特点:为输入数据(训练数据)均有一个明确的标识或结果(标签)
萌狼说1:就是给他问题和答案,让他自己做题,然后自己对答案。
萌狼说2:就是给它一道有答案的例题让它学习
分类算法
分类(Classification):就是通过已有数据集(训练集)的学习,得到一个目标函数f (模型),把每个属性集x映射到目标属性y (类) ,且y必须是离散的(若y为连续的,则属于回归算法)。通过对已知类别训练集的分
析,从中发现分类规则,以此预测新数据的类别。
萌狼说人话:比如我手上有一堆图片,同时每张图片标记了图中人物是否戴口罩。我给它看:AI你看啊,这张图是戴了口罩了,这张图是没戴口罩的……(AI学习中),根据我教它的,它进行建模,然后你给它一张没见过的图片,它在这个时候就能根据模型预测这张图是否戴了口罩了。
【相关阅读】计算机视觉技术与应用:识别人物是否带口罩
文章地址(包含代码):计算机视觉技术与应用:识别人物是否带口罩
分类算法有很多种
按原理分类:
- 基于统计的:例如贝叶斯分类
- 基于规则的:例如决策树算法
- 基于神经网络的:神经网络算法
- 基于距离的:KNN(K最近邻)
常用评估指标
- 精确率:预测结果与实际结果的比例
- 召回率:预测结果中某类结果的正确覆盖率
- F1-Score:统计量,综合评估分类模型,取值0-1之间
回归算法
回归(Regression)
分类算法的带的目标属性y(类)是离散的,而回归算法得到的y是连续的。
既然是连续的,就可以使用函数表示。
所以回归算法的实质:通过已有数据,尽可能的去拟合成一个函数
例如:我有商品在不同售价时对应卖出数量的数据集,对这些数据建模后,模型就可以根据我们输入的价格预测会卖出的数量。实际上它是根据我们给的数据,拟合了一个函数,例如拟合线性方程Y=aX+b
这个a和b可以使用最小二乘法求出来。
比如我给你如下数据
价格 | 销售量 |
---|