【深度解析】机器学习的“四大绝技”


机器学习非常擅长四大任务:

  • 回归(regression)
  • 分类(classification)
  • 聚类(clustering)
  • 降维(Dimensionality Reduction)

这四大任务可是机器学习的看家本领,下面详细介绍一下。

一、回归(regression):未来预言家

1.1 处理连续数据

简单来说,回归就是在处理连续数据时使用的技术。
什么叫连续数据呢?就是这些数据是连续的,而不是离散的。
什么叫连续,就是它们能用一个个实数表示,它们的值可以取得数轴上的一系列连续的点。
股价、房价、温度、身高、体重这些都是连续数据。
什么叫离散的,就是数据中间一定有间隔。最典型的就是二进制,只有1和0,对应高电平、低电平。
典型的连续数据就是时间序列(Time Series)数据。时间序列数据就是随时间变化而变化的数据,注意这里说的连续不是指时间连续,而是随着时间变化的数据得是连续的。
比如股价就是时间序列数据的典型例子:
在这里插入图片描述
咱们都学过函数,函数就是连续数据,因为每一个x都对应唯一的y,可以画出一条曲线来,它是连续的。上面的股价和时间走势图本身就是个函数图像。

1.2 什么是回归

回归就是从类似上面这样的连续数据中学习它的趋势,以此预测未来走势。
牛津词典中对regression的解释:

~ (to sth)the process of going back to an earlier or less advanced form or state倒退;回归;退化

所以简单来说,回归就是回到过去,预测未来。
19世纪末,英国有位叫弗朗西斯·高尔顿(Francis Galton)的统计学家,他在研究身高问题时发现,儿子身高的平均值往往接近父亲身高的平均值,也就是子辈的身高有回归到父辈身高的规律。于是,他将这种现象称为"回归"(regression)或"退回"(reversion)到平均值,并将这种预测方法命名为"回归分析",这就是regression这个词用于统计学的源起。
回归是个新名词,但就其手法而言,咱们早就玩滥了。
咱们中华民族有一门很高深的学问,叫“算命”。
所谓的算命,剔除胡说八道、信口开河的那部分,基本上就是一招:研究过去、预测未来。
比如根据生辰八字预测将来的身价、根据身体表现预测寿命等,基于都是基于过去的经验。
在这里插入图片描述
再拿股价来说,只要炒过股的人,都知道K线分析吧?什么成交量、KDJ、MACD、ARBR、VR、RSI、BOLL这些指标,统统都是总结过去数据的规律,以此来推测未来股价走势,因此都是回归。
只不过,机器学习中的回归,不是用上面这些咱们人搞出来的固定指标,而是由机器学习算法自己去摸索规律,仅此而已。
但是,稍微用脑子想想就知道,对于股价来说,机器学习这一套不怎么靠谱。因为影响股价的因素太多了,就算你的算法再牛皮,光靠过去的那点儿数据,也折腾不出什么大浪花来。
否则的话,那些AI公司还用干别的吗?直接炒股不就完了?
但是,有些影响因素不那么多的,和历史数据强相关的地方,机器学习就很靠谱了,比如说根据备件的历史消耗数据推测未来的消耗,根据房屋尺寸、地理位置等数据来预测房屋的价格。

1.3 算法原理

回归模型的基本原理是,想法儿提炼出历史数据的特征,将其与历史数据建立匹配关系,以此预测未知数据。具体来说就是根据已有的数据点找到一条最佳拟合曲线,然后用这条曲线对未来未知的数据进行预测。它通常通过最小化预测值和真实值之间的差异(例如,通过最小化均方误差)来实现。
回归算法包括线性回归、决策树回归、支持向量回归、神经网络回归等。

二、分类(classification):鉴别专家

2.1 分类的基本原理

分类这个词咱们都不陌生,就是根据事物的特点归类嘛。
分类处理的不再是连续数据,而是离散数据。
典型的分类应用就是鉴别垃圾邮件。
理解起来容易,但这玩艺干起来麻烦,它得需要打“标签(label)”。
具体来说,在开始机器学习之前,先要人工为要用于学习的邮件打上标记,像下表一样区分是否为垃圾邮件。
在这里插入图片描述
机器学习最麻烦的地方就在于此。
为什么非要人来打标签呢?这可太折磨人了。想想原因也很简单,机器学习就是学习人的思考逻辑,当然要根据人的判断来分类了。如果要鉴别屎的质量等级,那就应该让狗来打标签了; 如果要了解偷情的满足程度,那就应该让狗男女来打标签。
这种枯燥透顶的工作岗位叫做“数据标注员”或者“标注训练师”,将来还可能叫“标注工程师”或者“标注小王子”。很多公司都认为在校大学生特别适合,或者远渡非洲寻找真命天子。
有时候,这种工作也是有改善空间的。还是拿鉴别垃圾邮件来说,可以让用户收到邮件时选择是否为垃圾邮件,然后把这些用户打好标签的数据拿来学习。还有骚扰电话,如果你收到电话时将某号码列为骚扰电话,也算是给机器学习做了贡献。
其实算命也会用到分类,比如你发现好多天庭饱满地阁方圆的人都过得十分滋润,于是得出一条结论,有这样面相的人都是富贵命。这类算命问题的结果是定性的,比如命运的好坏、婚姻美不美满等,它不是连续的数值,因此是分类,不是回归了。既能用到回归,又能用到分类,所以,用机器学习搞算命,应该还是很有搞头的。

2.2 二分类 vs 多分类

像鉴别垃圾邮件这种只有两个类别的问题称为二分类,有三个及以上的问题称为多分类,比如数字的识别就属于多分类问题。
关于数字识别,有一个很有名的数据集叫MNIST,它收集了大量手写的数字图片,以及图片实际的数字信息。由于其规模较小,结构简单,经常被用作机器学习和深度学习领域的入门项目,被视为机器学习界的“Hello World”。

2.3 算法原理

分类模型也是通过抽取数据的特征,然后与它的类别建立匹配关系,由此推测未分类的数据属于哪一类。
常用的分类算法包括逻辑回归、决策树、随机森林、支持向量机等。

三、聚类(clustering):地下工作者

3.1 聚类的性质

假设要根据考试成绩将8000名学生分为几组,根据分组结果,再得出某组偏重理科、某组偏重文科这样的结论。
在这里插入图片描述
这样的问题就是聚类问题。
试问这样的问题你找在校大学生,或者非洲王子能一眼就分出组来吗?显然难度很大。
所以,这看起来貌似也是分类,但与分类却不同。聚类的数据不带标签(标准答案),也就是没有分类的正确答案。
确切地说,不是它不想带标签,是人没有能力给它打标签。
那怎么办,就得纯靠算法自己是分析数据定“标签”。
所以说,聚类是地下工作者,是在黑暗中摸索前进的。
聚类就是将有共性的数据聚合起来分类。也就是根据数据的相似度,研究哪些数据聚在一起(扎堆儿),哪些数据离得比较远。
用一句话来说,就是物以类聚,人以群分。
这么看来,貌以用聚类来算算命也无不可,说不定还能搞出个惊天大发现,得个诺贝尔奖什么的。

3.2 有监督学习、无监督学习

使用有标签的数据进行的学习称为有监督学习;使用没有标签的数据进行的学习称为无监督学习。
这里,咱们就把标签理解为标准答案。
比如你指着一只猫对娃儿说:“这是猫。”然后指着一只狗说:“这是狗。”于是,小孩子就通过你的指导(也就是标注数据)学会了区分猫和狗,这就是有监督学习,数据里是带有答案的(也就是标签)。
现在,假设你给了小孩子一堆动物图片,但没有告诉他哪些是猫,哪些是狗。小孩子需要自己观察这些图片,找出它们之间的相似性和差异性,然后尝试将它们分类,这就是无监督学习,数据里是不带答案的。
如果有能力监督当然最好,但有时是没能力监督的,就像刚才的成绩分组一样。有一句英文是这样描述二者的区别的:

Unsupervised and supervised. The former does not know which cluster the input data belongs to until all data are analyzed together.
无监督和有监督。前者直到所有数据被一起分析,才能知道输入数据属于哪个聚类。

回归也是有标签的,它的标签就是历史数据,比如过去的股价的多少,那就是现成的答案。
综上,回归和分类是有监督学习,而聚类是无监督学习。

3.3 算法原理

与分类不同,聚类并不知道目标类别,它是通过寻找数据内的结构特征来识别相关组。
常见的聚类算法包括K均值聚类(K-means clustering)、层次聚类(Hierarchical Clustering)、密度聚类(Density-based Clustering)等。

四、降维(Dimensionality Reduction):简化大师

4.1 降维的意义

降维就是减少数据的维度,它的目的是化繁为简,并且要在简化的同时不失真。
当我们面对高维数据时,往往会觉得头疼不已。一方面,过多的特征可能导致计算成本过高;另一方面,某些冗余或无关紧要的信息也可能干扰最终结果。这时候,你就可以使用降维算法。机器学习为我们提供了多种降维工具,帮助我们在保持原始数据主要特征的同时减少不必要的复杂性。

4.2 算法原理

其中最为人熟知的就是主成分分析(Principal Component Analysis, PCA)。它通过寻找数据中方差最大的方向,投影到低维空间中,既保留了最重要的信息,又大大降低了存储和运算负担。除了PCA之外,还有线性判别分析(LDA)、t-SNE、LLE等其他降维算法。

:有关机器学习的其他文章
数据分析vs机器学习
离程序库越近,离真理越远
TensorFlow的简明介绍:机器学习界的谷大拿
机器学习与人工智能的关系
机器学习的爆发秘密

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

金创想

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值