前言
当今时代充满变革与挑战,流行疾病可瞬间改变社会生存方式,但风险与机遇并存。科技创新,特别是 5G 通信、大数据和人工智能技术将推动新发展与变革。在此背景下,人工智能及关键技术机器学习成为 IT 领域热点。众多大学生学习,高校开设学院,IT 从业人员也涉猎。这是时代必然,因机器学习应用广泛,落地各行各业。而大数据的背后,核心竞争力必然是机器学习。机器学习以大数据为基础,可发现规律、优化性能、解决日常问题和为战略决策提供方向,从商品推荐到疾病防控、搜索结果及计算机视觉和自然语言处理都离不开它。时代发展需机器学习广泛应用,更多人应掌握其知识,目前优秀人才远不能满足市场需求,人才匮乏制约技术应用速度和质量。
一、什么是机器学习
1.1 定义
机器学习是从数据中自动分析获得模型,并利用模型对未知数据进行预测。
我们人从大量的日常经验中归纳规律,当面临新的问题的时候,就可以利用以往总结的规律去分析现实状况,采取最佳策略。
1.2 数据集构成
结构:特征值+目标值
注:* 对于每一行数据我们可以称之为样本
* 有些数据集可以没有目标值
机器学习常用术语
二、机器学习算法分类
2.1 监督学习
定义:输入数据是由输入特征值和目标值所组成。函数的输出可以是一个连续的值(称为回归)
,或是输出是有限哥离散值(称作分类)
常见的算法
分类
K-近邻算法(KNN)
朴素贝叶斯分算法
决策树与随机森林
逻辑回归算法
回归
线性回归
岭回归
2.2 无监督学习
定义:输入数据是由输入特征值所组成
常见算法
聚类 K-means算法
三、机器学习开发流程
一、原始数据
这是机器学习的起点,原始数据可以来自各种渠道,如数据库、传感器、文件等。这些数据可能是未经处理的、杂乱无章的,并且可能包含噪声、缺失值和异常值。
二、数据特征工程(训练数据和测试数据)
1. 数据清洗:对原始数据进行清理,去除噪声、处理缺失值和异常值等,以提高数据的质量。
2. 特征提取:从原始数据中提取出有意义的特征,这些特征能够更好地描述数据的本质属性。例如,对于图像数据,可以提取颜色、纹理、形状等特征;对于文本数据,可以提取词频、词性、主题等特征。
3. 特征选择:从提取的众多特征中选择出对模型性能有重要影响的特征,去除冗余和无关的特征,以提高模型的训练效率和泛化能力。
4. 数据划分:将处理后的数据集划分为训练数据和测试数据。训练数据用于模型的学习和训练,测试数据用于评估模型的性能。
三、算法进行学习
选择合适的机器学习算法,利用训练数据对模型进行学习和训练。不同的算法适用于不同类型的数据和问题,例如,线性回归适用于连续型变量的预测问题,决策树适用于分类问题,神经网络适用于复杂的非线性问题等。
四、模型
经过算法学习后得到的模型,它可以对新的数据进行预测和分类。模型的性能取决于数据的质量、特征工程的效果以及算法的选择和参数调整等因素。
五、模型评估(测试数据)
使用测试数据对模型进行评估,评估指标包括准确率、精确率、召回率、F1 值、ROC 曲线下面积等。通过评估可以了解模型的性能和泛化能力,发现模型存在的问题和不足。
六、模型选择
如果有多个模型可供选择,可以通过比较不同模型的评估结果,选择性能最好的模型。模型选择可以考虑模型的准确性、复杂度、可解释性等因素。
七、判断模型是否合格
根据预设的标准和要求,判断模型是否合格。如果模型不合格,需要重新进行数据处理、算法选择、参数调整等工作,直到得到合格的模型。
八、模型应用
将合格的模型应用到实际问题中,进行预测、分类、推荐等任务。在应用过程中,需要不断对模型进行监控和优化,以确保模型的性能和稳定性。
流程图: