零基础学习机器学习【第一天】

前言

        当今时代充满变革与挑战,流行疾病可瞬间改变社会生存方式,但风险与机遇并存。科技创新,特别是 5G 通信、大数据和人工智能技术将推动新发展与变革。在此背景下,人工智能及关键技术机器学习成为 IT 领域热点。众多大学生学习,高校开设学院,IT 从业人员也涉猎。这是时代必然,因机器学习应用广泛,落地各行各业。而大数据的背后,核心竞争力必然是机器学习。机器学习以大数据为基础,可发现规律、优化性能、解决日常问题和为战略决策提供方向,从商品推荐到疾病防控、搜索结果及计算机视觉和自然语言处理都离不开它。时代发展需机器学习广泛应用,更多人应掌握其知识,目前优秀人才远不能满足市场需求,人才匮乏制约技术应用速度和质量。

一、什么是机器学习

1.1 定义

        机器学习是从数据中自动分析获得模型,并利用模型对未知数据进行预测。

        我们人从大量的日常经验中归纳规律,当面临新的问题的时候,就可以利用以往总结的规律去分析现实状况,采取最佳策略。

1.2 数据集构成

结构:特征值+目标值

注:* 对于每一行数据我们可以称之为样本

       * 有些数据集可以没有目标值

机器学习常用术语

二、机器学习算法分类

2.1 监督学习

定义:输入数据是由输入特征值和目标值所组成。函数的输出可以是一个连续的值(称为回归)

,或是输出是有限哥离散值(称作分类)

常见的算法

        分类

                K-近邻算法(KNN)

                朴素贝叶斯分算法

                决策树与随机森林

                逻辑回归算法

        回归

                线性回归

                岭回归

2.2 无监督学习

定义:输入数据是由输入特征值所组成

常见算法

        聚类 K-means算法

三、机器学习开发流程


一、原始数据
    这是机器学习的起点,原始数据可以来自各种渠道,如数据库、传感器、文件等。这些数据可能是未经处理的、杂乱无章的,并且可能包含噪声、缺失值和异常值。

二、数据特征工程(训练数据和测试数据)
    1. 数据清洗:对原始数据进行清理,去除噪声、处理缺失值和异常值等,以提高数据的质量。
    2. 特征提取:从原始数据中提取出有意义的特征,这些特征能够更好地描述数据的本质属性。例如,对于图像数据,可以提取颜色、纹理、形状等特征;对于文本数据,可以提取词频、词性、主题等特征。
    3. 特征选择:从提取的众多特征中选择出对模型性能有重要影响的特征,去除冗余和无关的特征,以提高模型的训练效率和泛化能力。
    4. 数据划分:将处理后的数据集划分为训练数据和测试数据。训练数据用于模型的学习和训练,测试数据用于评估模型的性能。

三、算法进行学习

    选择合适的机器学习算法,利用训练数据对模型进行学习和训练。不同的算法适用于不同类型的数据和问题,例如,线性回归适用于连续型变量的预测问题,决策树适用于分类问题,神经网络适用于复杂的非线性问题等。

四、模型

    经过算法学习后得到的模型,它可以对新的数据进行预测和分类。模型的性能取决于数据的质量、特征工程的效果以及算法的选择和参数调整等因素。

五、模型评估(测试数据)

    使用测试数据对模型进行评估,评估指标包括准确率、精确率、召回率、F1 值、ROC 曲线下面积等。通过评估可以了解模型的性能和泛化能力,发现模型存在的问题和不足。

六、模型选择

    如果有多个模型可供选择,可以通过比较不同模型的评估结果,选择性能最好的模型。模型选择可以考虑模型的准确性、复杂度、可解释性等因素。

七、判断模型是否合格

    根据预设的标准和要求,判断模型是否合格。如果模型不合格,需要重新进行数据处理、算法选择、参数调整等工作,直到得到合格的模型。

八、模型应用

    将合格的模型应用到实际问题中,进行预测、分类、推荐等任务。在应用过程中,需要不断对模型进行监控和优化,以确保模型的性能和稳定性。

流程图:

                    

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值