机器学习笔记——基本概念

一、什么是机器学习

首先我们以人来举例:你在买苹果的时候,看到一个苹果,它黄里透红、果皮粗糙、硬度稍软,我们就可以判断它比较甜,这是因为我们已经有了类似的经验,通过对经验的应用就可以做出相应的判断。

这种对经验的利用是我们自发形成的,但是机器是否能做到呢。

机器学习就是这样一门学科,它致力于研究如何通过计算的手段,利用经验来改善系统自身的性能。在计算机系统中,“经验”通常就是我们所说的数据。因此,机器学习的主要内容就是关于在计算机上从数据中产生“模型”的算法——“学习算法”。有了算法,就能过基于经验数据产生模型,在面对新情况时,根据初始数据,模型可以预测出相应结果。

二、基本术语

属性(特征):色泽、手感、硬度

属性值:黄红、粗糙、软

记录(实例):关于一个事件或对象的描述(色泽=黄红;手感=粗糙;硬度=软)。

数据集:记录的集合。

样本:单个记录或者数据集,根据上下文判断。

学习(训练):通过某个学习算法从数据中学得模型。

标记信息:训练样本的结果信息(甜)

分类任务:预测结果为离散值(甜、酸)

回归任务:预测结果为连续值(甜度0.9、甜度0.75)

聚类:将物理或抽象对象的集合分成由类似的对象组成的多个类

监督学习:有标记信息,根据已有的输入和输出结果之间的关系,训练得到一个最优的模型(分类、回归为代表)。

无监督学习:无标记信息,不知道数据、特征之间的关系,而是要根据其内在联系进行分类(聚类为代表)。

(术语名字较多,仅简单介绍几个,不需要死记硬背,只要在阅读相关资料时理解即可,无需纠结)

三、假设空间

归纳和演绎是科学推理的两大基本手段,前者是从特殊到一般(泛化过程),后者是从一般到特殊(特化过程)。

机器学习是一种“从样例中学习”的过程,因此也称为“归纳学习”

我们以苹果为例,有三种属性——色泽(黄、红、黄红)、手感(粗糙、细腻、一般)、硬度(软、硬、一般),假设有以下训练数据集:

编号色泽手感硬度口感
1黄红粗糙
2粗糙
3黄红细腻
4一般一般

机械学习就是将训练集中的所有数据记住,之后再见到一模一样的数据自然可以判断。

但是我们的目标是学得的模型能够很好地适用于“新样本”,这就要依赖机器学习学习过程,追求的不仅仅是在训练样本上工作的很好,适用于“新样本”的能力被称为“泛化”能力,具有强泛化能力的模型能够很好地使用于整个样本空间。

一般而言,训练样本越多,得到的模型就越可能具有强泛化能力。

我们可以把学习过程看做是在所有假设组成的而空间中进行搜索的过程,搜索目标是找到与训练集匹配的假设(能正确预测训练数据的假设),色泽、手感、硬度均有四种可能(三种正常情况 + 随意 * ),还有一种极端情况(甜或酸的概念不成立,视为Φ),则假设空间规模的大小为4*4*4+1 = 65

现实情况中我们会面临很大的假设空间,但学习过程是基于有限的训练集进行的,因此可能有很多假设与训练集一致,即存在一个假设集合,我们称之为版本空间,例如上述训练集的假设空间和版本空间如下:

假设空间(所有可能的假设的集合)

 版本空间(所有与训练集符合的假设的集合——判断为甜)

四、归纳偏好

如上图的版本空间所示,每一个假设都对应一个模型。

我们根据训练集得到了三个相符的假设(模型),但是对于新的样本来说,不同的模型判断结果也会不同,所以我们应该使用哪一个模型呢?

仅对于上述训练集,我们无法判断哪个模型更好,但是我们使用的学习算法本身会有“偏好”。如果算法喜欢“特殊”,则会选择(色泽=*;手感=粗糙;硬度=软);如果喜欢“一般”并且相信手感,则会选择(色泽=*;手感=粗糙;硬度=*)。这种算法的“偏好”就称为“归纳偏好”或“偏好”,任何一个算法都有归纳偏好。

例如下图中我们可以看到,相同的训练集存在多条曲线相符。

那有没有一种“价值观”去引导算法选择偏好呢,“奥卡姆剃刀”是一种常用的、自然科学研究中最基本的原则,即“若有多个假设与观察一致,则选择最简单的那个”。它并非是唯一可行的原则而且对于“简单”的定义并不简单。

很多读者肯定认为图中平滑的曲线泛化能力更强,但是事实上另一条曲线在某些问题上表现更好。

最有趣的是,根据数学证明可知,两条曲线对应的学习算法总误差的期望相同,且总误差与学习算法无关。这就是“没有免费的午餐”定理(NFL定理),所有学习算法的期望和随机猜测的差不多,那这还有什么可学的?

其实NFL定理有一个前提:所有问题同等重要,但事实并不是这样,我们设计的算法总是要去解决一个具体问题,而这个算法在其他问题上是否优秀我们并不关心,所以任何学习算法都不能脱离实际问题,具体问题具体分析,空谈学习算法没有任何意义,学习算法自身的归纳偏好和问题是否匹配往往起到决定性作用。

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值