ML之关键术语

1、数据术语

1.1 样本

1.1.1 定义

单个数据记录

1.1.2 性质

样本是构成数据集的基本单位,每个样本包含了一系列相关的特征,用于模型的训练和测试。

1.1.3 解释

在用户画像数据中,某用户的年龄、收入、购买记录等信息组合在一起,就构成了一个样本。
这些样本为模型提供了丰富的信息,使其能够学习到数据中的模式和规律。样本的质量数量对模型的性能有着重要影响,高质量的样本能够帮助模型更好地泛化到新的数据上。

1.2 特征

1.2.1 定义

数据的属性

1.2.2 性质

特征是样本中用于描述和区分不同样本的特性,它们是模型进行学习和预测的依据。

1.2.3 解释

在房价预测问题中,房屋的面积、楼层、位置等都是影响房价的重要特征。
特征的选择和提取是机器学习中的关键步骤,合适的特征能够显著提高模型的性能。在图像识别中,图像的像素值、边缘、纹理等特征对于识别物体至关重要;在自然语言处理中,文本的词频、词向量等特征是模型理解语义的基础。

1.3 标签

1.3.1 定义

预测目标

1.3.2 性质

标签是样本中需要被预测或分类的结果,它为模型提供了监督信息,使模型能够根据输入的特征来学习输出对应的标签。

1.3.3 解释

在房价预测中,房价就是标签,模型通过学习房屋的特征与房价之间的关系,来实现对新房屋价格的预测。
在分类问题中,标签通常是离散的类别标签,如垃圾邮件分类中的“垃圾邮件”或“非垃圾邮件”;在回归问题中,标签则是连续的数值,如股票价格预测中的未来股价。

2、示例数据集

面积 (m²)楼层位置房价 (万元)
1203市区250
805郊区120
1008市区200
906郊区150
1502市区300

在这个示例数据集中,

  • 每一行代表一个样本,即一套房屋的信息
  • “面积”、“楼层”和“位置”是房屋的特征,它们共同描述了房屋的不同方面,为模型提供了丰富的输入信息
  • “房价”则是标签,是模型需要学习预测的目标

通过分析这些样本的特征与标签之间的关系,模型可以建立起房价预测的模型,从而对新的房屋样本进行价格预测

3、数据集划分

3.1 训练集(80%)

3.1.1 作用

用于训练模型。训练集是数据集中的一部分,模型通过在训练集上进行学习,调整自身的参数,以尽可能准确地拟合训练数据中的模式和规律。

3.1.2 解释

在房价预测问题中,使用80%的历史数据作为训练集,模型会根据这些数据中的房屋特征和对应的价格,学习到房屋面积、楼层、位置等因素与房价之间的关联关系。
训练集的规模质量对模型的训练效果有着重要影响,较大的训练集通常能够使模型更好地学习到数据中的复杂模式,但同时也需要更多的计算资源和训练时间。

3.2 测试集(20%)

3.2.1 作用

评估模型泛化能力。测试集是数据集中与训练集相互独立的一部分,用于在模型训练完成后,评估模型对未见过的新数据的预测能力,即模型的泛化能力。

3.2.2 解释

使用剩余20%的历史数据作为测试集,通过将模型对这些数据的预测结果与实际的房价进行比较,可以计算出模型的预测准确性、均方误差等评估指标。
测试集的评估结果能够帮助我们了解模型在实际应用中的表现,从而对模型进行调整优化。在实际应用中,为了确保测试集能够准确地反映模型的泛化性能,通常会将测试集与训练集进行严格的分离,并且在模型训练过程中不使用测试集的数据。


微语录:任何的收获不是巧合,而是每天的努力与坚持的结果。不怕你每天迈一小步,只怕你停滞不前,不怕你每天做一点点事,只怕你无所事事。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值