前面两篇文章,我们从直观的角度讲解了机器学习的最基本原理,并且解释了机器学习三要素:数据、算法和模型。
“应用机器学习技术”这件事情,具体到微观的行为,其实就是:使用机器学习模型来预测数据,得到预测结果。然后,预测结果可能会作为下一步业务逻辑的依据。
要使用机器学习模型,首先要获得它。在有了数据和算法的情况下,我们需要通过一个过程来获得模型,这个过程就叫做:训练。
获取模型的过程
在前面讲述三要素时我们已经讲过:数据 + 算法 => 模型
获得模型的过程——训练——是将算法应用到数据上进行运算的过程。
笼统而言,为了构建一个模型,我们需要经历以下步骤:
Step-1:数据准备。
- Step-1.1 数据预处理:收集数据、清洗数据、标注数据。
- Step-1.2 构建数据的向量空间模型(将文本、图片、音频、视频等格式的数据转换为向量)。
- Step-1.3 将构建好向量空间模型的数据分为训练集、验证集和测试集。
Step-2:训练——将训练集输入给训练程序,进行运算。训练程序的核心是算法,所有输入的向量化数据都会按该训练程序所依据的算法进行运算。训练程序输出的结果,就是模型。
Step-3:测试——将测试集数据输入给训练获得的模型,得到预