机器学习知识点总结

1、人工智能、机器学习、深度学习
人工智能-(为机器赋予人的智能):人工智能技术希望使用计算机来构造复杂的、拥有与人类智慧同样本质特性的机器,这些能够代替人工工作的机器,算法等等统一称之为人工智能,人工智能是最早出现的。
机器学习:一种实现人工智能的方法。机器学习最基本的做法,是使用算法来解析数据、从中学习,然后对真实世界中的事件做出决策和预测。其最成功的应用领域是计算机视觉。
深度学习:深度学习是机器学习的一种,而机器学习是实现人工智能的必经路径。深度学习的概念源于人工神经网络的研究,含多个隐藏层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示。研究深度学习的动机在于建立模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据,例如图像,声音和文本等。
2、监督和无监督
监督学习,就是人们常说的分类,通过已有的训练样本(即已知数据以及其对应的输出)去训练得到一个最优模型(这个模型属于某个函数的集合,最优则表示在某个评价准则下是最佳的),再利用这个模型将所有的输入映射为相应的输出,对输出进行简单的判断从而实现分类的目的,也就具有了对未知数据进行分类的能力。
无监督学习(只提供训练样本,没有对应标签),事先没有任何训练样本,而需要直接对数据进行建模。无监督学习里典型的例子是聚类,聚类的目的在于把相似的东西聚在一起,而我们并不关心这一类是什么。因此,一个聚类算法通常只需要知道如何计算相似度就可以开始工作了。
3、回归和分类
回归与分类都是有监督学习的例子,分类是指有有限个可能的问题,预测的是一个离散的、明确的变量。回归是指有无限个可能的问题,预测的是一个连续的、逼近的变量。比如房价的预测、明日气温的预测。
4、机器学习的一般步骤
数据处理(特征工程——对特征进行进一步分析,并对数据进行处理。
常见的特征工程包括:异常值处理、缺失值处理、数据分桶、特征处理、特征构造、特征筛选及降维等
训练集如何划分:传统的机器学习领域中,由于收集到的数据量往往不多,比较小,所以需要将收集到的数据分为三类:训练集、验证集、测试集。也有人分为两类,就是不需要测试集。
(1)留出法,按照7:3来分随机分割,这样得到的两个集合分布一致,适用于数据集已经接近真实分布,且类间分布没有较大偏差。如果样本量巨大,类似于深度学习,可以按照99:1来划分。
(2)自助法,有放回的抽样,抽样次数无穷多时会有33%的样本无法抽到,将抽取到的作为训练集,对应余集作为测试,实现包外估计,能够降低过拟合的风险。这方法适合集成算法模型。
(3)K-折分割,将样本随机分割K份,其中一份做测试集,其余做训练集,会得到K个模型。此方法充分利用了样本集,但是开销较大,适合算法复杂度较低的模型。
比例根据经验不同而不同,这里给出一个例子,如果是三类,可能是训练集:验证集:测试集=6:2:2;如果是两类,可能是训练集:验证集=7:3。因为数据量不多,所以验证集和测试集需要占的数据比例比较多)等)
训练(选择模型-代价函数-梯度下降优化)
测试(评测指标)

在这里插入图片描述
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值