监督学习的特点是既有输入,也有结果。
我们输入的数据是(x,y)这种样本点的模式,x是我们输入的数据量,y是我们想要的结果。通过学习系统得到一个模型,得到一个y和x的函数关系,或者一个条件概率模型,即y在x的前提下发生的概率。
监督学习(Supervised Learning)算法构建了包括输入和所需输出的一组数据的数学模型。这些数据称为训练数据,由一组训练样本组合。
监督学习主要包括分类和回归。当输出被限制为有限的一组值(离散数值)时使用分类算法;当输出可以具有范围内的任何数值(连续数值)时使用回归算法。
相似度学习是和回归和分类都密切相关的一类监督机器学习,它的目标是使用相似性函数从样本中学习,这个函数可以度量两个对象之间的相似度或者关联度。它在排名、推荐系统、视觉识别跟踪、人脸识别等方面有着很好的应用场景。
1.监督学习应用举例
1.1 预测房价或房屋出售情况
我们将所在街区、房屋价格、住房面积、住房格局、是否学区总体当成一个x,是否售出当做一个y输入模型内,再通过模型预测第四套房子是否售出。由于结果只有“是”和“否”这两个答案,因此结果是离散的,我们采用分类算法。
如果我们要预测第四套房子的价格多少时可以售出,那么此时是否售出是“是”,y应该为房屋的价格。房屋的价格是连续的数字,有无穷多个可能,没有固定的数目,因此 不是离散的,我们采用回归算法。
2.监督学习深入介绍
2.1 监督学习三要素
模型(model):总结数据的内在规律,用数学函数描述的系统。
策略(strategy):选取最优模型的评价准则。
算法(algorithm):选取最优模型的具体方法。
2.2 监督学习实现步骤
1.得到一个有限的训练数据集。
2.确定包含所有学习模型的集合。
3.确定模型选择的准则,也就是学习策略。
4.实现求解最优模型的算法,也就是学习算法。
5.通过学习算法选择最优模型。
6.利用得到的最优模型,对新数据进行预测或分析。
2.3 模型评估策略
模型评估:
- 训练集和测试集
- 损失函数和经验风险
- 训练误差和测试误差
模型选择:
- 过拟合和欠拟合
&nbs