1、数据术语
1.1 样本
1.1.1 定义
单个数据记录
1.1.2 性质
样本是构成数据集的基本单位,每个样本包含了一系列相关的特征,用于模型的训练和测试。
1.1.3 解释
在用户画像数据中,某用户的年龄、收入、购买记录等信息组合在一起,就构成了一个样本。
这些样本为模型提供了丰富的信息,使其能够学习到数据中的模式和规律。样本的质量和数量对模型的性能有着重要影响,高质量的样本能够帮助模型更好地泛化到新的数据上。
1.2 特征
1.2.1 定义
数据的属性
1.2.2 性质
特征是样本中用于描述和区分不同样本的特性,它们是模型进行学习和预测的依据。
1.2.3 解释
在房价预测问题中,房屋的面积、楼层、位置等都是影响房价的重要特征。
特征的选择和提取是机器学习中的关键步骤,合适的特征能够显著提高模型的性能。在图像识别中,图像的像素值、边缘、纹理等特征对于识别物体至关重要;在自然语言处理中,文本的词频、词向量等特征是模型理解语义的基础。
1.3 标签
1.3.1 定义
预测目标
1.3.2 性质
标签是样本中需要被预测或分类的结果,它为模型提供了监督信息,使模型能够根据输入的特征来学习输出对应的标签。
1.3.3 解释
在房价预测中,房价就是标签,模型通过学习房屋的特征与房价之间的关系,来实现对新房屋价格的预测。
在分类问题中,标签通常是离散的类别标签,如垃圾邮件分类中的“垃圾邮件”或“非垃圾邮件”;在回归问题中,标签则是连续的数值,如股票价格预测中的未来股价。
2、示例数据集
面积 (m²) | 楼层 | 位置 | 房价 (万元) |
---|---|---|---|
120 | 3 | 市区 | 250 |
80 | 5 | 郊区 | 120 |
100 | 8 | 市区 | 200 |
90 | 6 | 郊区 | 150 |
150 | 2 | 市区 | 300 |
在这个示例数据集中,
- 每一行代表一个样本,即一套房屋的信息
- “面积”、“楼层”和“位置”是房屋的特征,它们共同描述了房屋的不同方面,为模型提供了丰富的输入信息
- “房价”则是标签,是模型需要学习预测的目标
通过分析这些样本的特征与标签之间的关系,模型可以建立起房价预测的模型,从而对新的房屋样本进行价格预测
3、数据集划分
3.1 训练集(80%)
3.1.1 作用
用于训练模型。训练集是数据集中的一部分,模型通过在训练集上进行学习,调整自身的参数,以尽可能准确地拟合训练数据中的模式和规律。
3.1.2 解释
在房价预测问题中,使用80%的历史数据作为训练集,模型会根据这些数据中的房屋特征和对应的价格,学习到房屋面积、楼层、位置等因素与房价之间的关联关系。
训练集的规模和质量对模型的训练效果有着重要影响,较大的训练集通常能够使模型更好地学习到数据中的复杂模式,但同时也需要更多的计算资源和训练时间。
3.2 测试集(20%)
3.2.1 作用
评估模型泛化能力。测试集是数据集中与训练集相互独立的一部分,用于在模型训练完成后,评估模型对未见过的新数据的预测能力,即模型的泛化能力。
3.2.2 解释
使用剩余20%的历史数据作为测试集,通过将模型对这些数据的预测结果与实际的房价进行比较,可以计算出模型的预测准确性、均方误差等评估指标。
测试集的评估结果能够帮助我们了解模型在实际应用中的表现,从而对模型进行调整和优化。在实际应用中,为了确保测试集能够准确地反映模型的泛化性能,通常会将测试集与训练集进行严格的分离,并且在模型训练过程中不使用测试集的数据。
微语录:任何的收获不是巧合,而是每天的努力与坚持的结果。不怕你每天迈一小步,只怕你停滞不前,不怕你每天做一点点事,只怕你无所事事。