scikit-learn机器学习笔记(11.22)

本文介绍了机器学习的基本概念,包括机器学习的定义和目标,以及从经验中学习的两种方式:监督学习和无监督学习。在监督学习中,详细阐述了分类和回归任务,并列举了KNN、朴素贝叶斯、决策树和逻辑回归等算法。无监督学习部分提到了聚类和降维,如K均值聚类和主成分分析。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

启言:

机器学习通过使用过去的经验去指导未来的决策,它的基础目标是归纳,或者从一种未知规则的应用例子中归纳出未知规则。

一、机器学习的定义

一个程序:性能体现在“T”,衡量性能用“P”,提升性能通过经验“E”

可视为:针对一些“T”类型,通过“P”来衡量性能的的任务,从经验“E”中进行学习

二、从经验“E”中学习(监督下和无监督下)

(1)监督学习:“对于输入数据X能预测变量Y”通过标记的输入和输出进行学习,并预测一个输入或输出,也就是:从“正确答案”的例子中进行学习。它在训练集中找规律,然后对测试数据运用这种规律。

常见的监督学习任务:分类回归

1)分类:分类的目标变量是标称型的,以电影分类为例,一部电影无非是动作片、爱情片、喜剧片等类别。

常见的分类算法:

a.KNN:k-近邻算法,使用距离测量的方法进行分类

b.NaiveBayes朴素贝叶斯,基于概率论的分类方法,贝叶斯公式。

c.DecisionTree:决策树,通过选区最优特征划分数据集,构建一棵树,表示我们的整个决策过程

d.LogisticRegression:逻辑回归,是一种分类算法,就是回归+Sigmoid函数

2)回归:而回归的目标变量是连续数值型的,如果预测某小区房价,则可能是任意正数了。

常见的回归算法:

a.LinearRegression:线性回归,有时也称回归

(2)无监督学习:“从数据X中能发现什么”,不从标记的数据中学习,它自己尝试在数据中发现模式。它没有训练集,只有一组数据,在该组数据集内寻找规律。(例:比如,一组颜色各异的积木,它可以按形状为维度来分类,也可以按颜色为维度来分类。分析数据集有什么特点都可以归于无监督学习方法的范畴)

常见的无监督学习任务:聚类降维

1)聚类:将数据按相似度聚类(clustering)成不同的分组

常见的聚类方法:

K 均值聚类

2)降维(reducing dimensionality),以便在保留数据结构和有用性的同时对数据进行压缩

两种实际中很常用的降维技术:

主成分分析和奇异值分解

(3)机器学习术语:

输入变量:特征。

输出变量:响应变量,其他包括:回归变量、被解释变量、应答。

输入变量代表的现象:解释变量,其他包括:预测器、回归器。

该两个可以是实数值也可以是离散值

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值