零基础学习机器学习【第一天】

最新推荐文章于 2025-08-15 23:13:00 发布

原创最新推荐文章于 2025-08-15 23:13:00 发布 · 1k 阅读

·

12

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#机器学习 #python #学习

前言

当今时代充满变革与挑战，流行疾病可瞬间改变社会生存方式，但风险与机遇并存。科技创新，特别是 5G 通信、大数据和人工智能技术将推动新发展与变革。在此背景下，人工智能及关键技术机器学习成为 IT 领域热点。众多大学生学习，高校开设学院，IT 从业人员也涉猎。这是时代必然，因机器学习应用广泛，落地各行各业。而大数据的背后，核心竞争力必然是机器学习。机器学习以大数据为基础，可发现规律、优化性能、解决日常问题和为战略决策提供方向，从商品推荐到疾病防控、搜索结果及计算机视觉和自然语言处理都离不开它。时代发展需机器学习广泛应用，更多人应掌握其知识，目前优秀人才远不能满足市场需求，人才匮乏制约技术应用速度和质量。

一、什么是机器学习

1.1 定义

机器学习是从数据中自动分析获得模型，并利用模型对未知数据进行预测。

我们人从大量的日常经验中归纳规律，当面临新的问题的时候，就可以利用以往总结的规律去分析现实状况，采取最佳策略。

1.2 数据集构成

结构：特征值+目标值

注：* 对于每一行数据我们可以称之为样本

* 有些数据集可以没有目标值

机器学习常用术语

二、机器学习算法分类

2.1 监督学习

定义：输入数据是由输入特征值和目标值所组成。函数的输出可以是一个连续的值(称为回归)

，或是输出是有限哥离散值(称作分类)

常见的算法

分类

K-近邻算法(KNN)

朴素贝叶斯分算法

决策树与随机森林

逻辑回归算法

回归

线性回归

岭回归

2.2 无监督学习

定义：输入数据是由输入特征值所组成

常见算法

聚类 K-means算法

三、机器学习开发流程

一、原始数据
这是机器学习的起点，原始数据可以来自各种渠道，如数据库、传感器、文件等。这些数据可能是未经处理的、杂乱无章的，并且可能包含噪声、缺失值和异常值。

二、数据特征工程（训练数据和测试数据）
   1. 数据清洗：对原始数据进行清理，去除噪声、处理缺失值和异常值等，以提高数据的质量。
   2. 特征提取：从原始数据中提取出有意义的特征，这些特征能够更好地描述数据的本质属性。例如，对于图像数据，可以提取颜色、纹理、形状等特征；对于文本数据，可以提取词频、词性、主题等特征。
   3. 特征选择：从提取的众多特征中选择出对模型性能有重要影响的特征，去除冗余和无关的特征，以提高模型的训练效率和泛化能力。
   4. 数据划分：将处理后的数据集划分为训练数据和测试数据。训练数据用于模型的学习和训练，测试数据用于评估模型的性能。

三、算法进行学习

选择合适的机器学习算法，利用训练数据对模型进行学习和训练。不同的算法适用于不同类型的数据和问题，例如，线性回归适用于连续型变量的预测问题，决策树适用于分类问题，神经网络适用于复杂的非线性问题等。

四、模型

经过算法学习后得到的模型，它可以对新的数据进行预测和分类。模型的性能取决于数据的质量、特征工程的效果以及算法的选择和参数调整等因素。

五、模型评估（测试数据）

使用测试数据对模型进行评估，评估指标包括准确率、精确率、召回率、F1 值、ROC 曲线下面积等。通过评估可以了解模型的性能和泛化能力，发现模型存在的问题和不足。

六、模型选择

如果有多个模型可供选择，可以通过比较不同模型的评估结果，选择性能最好的模型。模型选择可以考虑模型的准确性、复杂度、可解释性等因素。

七、判断模型是否合格

根据预设的标准和要求，判断模型是否合格。如果模型不合格，需要重新进行数据处理、算法选择、参数调整等工作，直到得到合格的模型。

八、模型应用

将合格的模型应用到实际问题中，进行预测、分类、推荐等任务。在应用过程中，需要不断对模型进行监控和优化，以确保模型的性能和稳定性。

流程图：

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。