ygyqinghuan-CSDN博客

原创读懂决策树算法

可能会依次考虑 “天气如何”“温度是否适宜”“湿度高不高”—— 这种层层判断的过程，正是决策树的工作逻辑。决策树由根节点（起始判断条件）、内部节点（中间判断条件）、叶节点（最终结果）和分支（判断结果）组成。案例：用 “是否出去玩” 数据集（如下），ID3 会计算 “天气”“温度” 等特征的信息增益，选择增益最大的特征作为根节点。公式：Gain(D,a)=H(D)−∑v=1V∣D∣∣Dv∣H(Dv)（Dv为特征 a 取第 v 个值的子集）。信息增益：某特征划分后，信息熵的减少量（“纯度提升”）。

2025-08-19 16:34:01 22

原创决策树简单实战

决策树靠 “熵” 选特征，一步步把混乱数据分类。核心逻辑就是“找大当家和各个小当家”把复杂问题拆成简单判断！下期再见!

2025-08-18 14:11:39 124

原创 KNN 算法：从电影分类到鸢尾花识别

这时候，KNN 算法就派上用场了 —— 它的核心逻辑是："物以类聚，人以群分"，新样本的类别由离它最近的 K 个 "邻居" 决定。比如在电影分类的例子中，若我们设 K=3，就找出与《Amped II》距离最近的 3 部已知电影。比如在网格状的街道上，从 (1,2) 到 (3,5) 的距离是 (3-1)+(5-2)=5。是爱情片还是动作片？算距离：计算新数据与已知数据集中每个样本的距离（比如打斗镜头和接吻镜头的 "差异"）；选邻居：挑选距离最近的 K 个样本（K 是我们自己设定的数，通常不超过 20）；

2025-08-15 10:38:22 246

原创机器学习绪论

针对一个特定任务（比如判断西瓜好坏、预测房价）；设定明确的评判标准（比如 "判断正确的比例"）；通过分析大量历史数据（经验），让任务完成得越来越好。

2025-08-14 13:33:26 636

原创电商商品销售数据分析

总评论数高的店铺通常销量也较高，但评论意愿（销量 / 评论数比值）与销量无直接关联，可能受商品类型（如美妆类商品用户更爱评论）或店铺引导（如评论返现活动）影响。多数店铺的非男士专用商品销量 / 销售额远高于男士商品，符合大众消费市场的普遍规律；除了店铺和商品类型维度，我们还分析了销售数据随时间的变化趋势。可能存在周期性规律（如周末销量高峰）或突发峰值（如大促期间），为库存管理和营销活动策划提供参考。清晰呈现了各店铺不同类型男士商品的销量差异，例如可快速识别哪些店铺的男士化妆品（代码中单独提取。

2025-08-13 09:55:35 212

原创基于 Python 的商品销售数据可视化分析

商品标题中包含了丰富的信息（如品类、适用人群等），但原始标题是连续的字符串，无法直接用于分析。在进行可视化分析前，我们需要先对原始数据进行预处理，将其转化为便于分析的格式。例如，“男士保湿面霜” 会被拆分为 ["男士", "保湿", "面霜", "保湿面霜"]，为后续的类别标注和人群定位提供了关键词基础。品牌是消费者选择商品的重要参考，我们从 “商品数量”“总销量”“总销售额” 和 “平均单价” 四个指标对比不同品牌的表现：python。1. 品牌表现分析：谁是市场 “优等生”？

2025-08-12 16:44:37 301

原创从数据爬取到可视化

例如豆瓣电影评分段占比：8.5-9 分的电影占 56.8%，直观反映 Top250 电影的评分集中趋势。在鸢尾花数据中，通过热力图发现花瓣长度与花瓣宽度的相关系数达 0.96，说明二者高度相关，为后续分类分析提供依据。箱线图：展示数据的四分位数、中位数，如鸢尾花萼片长度的分布，可快速识别不同品种的差异。小提琴图：结合箱线图与核密度估计，更全面呈现数据分布形态，如电影评分的整体分布密度。：定位小说名称、作者、月票数等字段，将数据结构化后保存，为后续分析打下基础。：如将电影评分的空值替换为 “暂无评分”，用。

2025-08-11 16:28:08 392

原创用 Seaborn 玩转数据可视化：从入门到惊艳的实用指南

箱子的中间线是中位数，箱子上下沿是四分位， outliers（异常值）会以点的形式标出 —— 数据分布的 “秘密” 全在图里。小提琴的 “宽度” 代表该位置数据的密度 —— 实验组的数值整体偏高，且在 18 附近最集中，这些信息比箱线图更丰富。散点图的点越集中在一条直线附近，说明变量相关性越强 —— 上面的例子显然是正相关。想同时看数据的分布形状和统计特征？想知道数据的分布特征（中位数、四分位、异常值）？箱线图是 “透视镜”。分析多个变量的相关性？跟踪数据随时间的变化？比较不同类别的数值？

2025-08-08 11:16:40 129

原创从零开始学 Matplotlib

想要图表更具可读性？Matplotlib 提供了丰富的参数用于自定义样式，让你的图表既美观又专业。

2025-08-07 15:54:20 608

原创 Pandas 的进阶

Pandas 支持多种数据格式的读取，无需手动解析文件，极大提升了数据导入效率。、"n/a" 等），若不处理会影响分析结果。Pandas 提供了一套完整的缺失值处理方案。：用列的均值（mean）或中位数（median）填充，更符合数据分布。：需先定义哪些值被视为缺失（如 "n/a"、"na"），避免漏判。方法可判断每个单元格是否为缺失值，返回布尔值（：用指定数值（如 0、666）替换缺失值。导入数据后，我们通常需要快速查看内容，实际数据中常存在缺失值（如空值、示例：删除含任何缺失值的行。

2025-08-06 17:02:37 301

原创解锁 Pandas：数据处理

若为行设置了自定义索引（如学科名称），直接用标签查询。python运行。

2025-08-06 16:58:25 234

原创解锁NumPy：数据科学的基础工具

【代码】解锁NumPy：数据科学的基础工具。

2025-08-04 16:48:09 290

原创解锁NumPy：数据科学的基础工具

在数据科学领域，NumPy 的数组操作是高效处理数据的基础。本文基于相关 PPT 前 35 页内容，提炼数组操作的核心方法，助你快速掌握关键技巧。

2025-08-01 14:18:20 158

原创解锁NumPy：数据科学的基础工具

full()函数则更加灵活，允许我们用指定的值填充数组，比如np.full([3, 2], fill_value=1024, dtype='i4')，就能得到一个 3 行 2 列、元素都是 1024 的数组。如果需要全是 0 的数组，zeros()函数是最佳选择，它能创建指定大小、元素全为 0 的数组。同理，ones()函数创建的是全为 1 的数组。arange()函数可以生成一个指定范围和步长的数组，例如np.arange(1,11,2)，会得到[1, 3, 5, 7, 9]这样的结果。

2025-07-31 13:17:00 119

原创 BeautifulSoup 数据解析

BeautifulSoup 是一个用于解析 HTML 和 XML 文档的 Python 库，它提供了简单的函数来处理导航、搜索和修改分析树等操作。其突出优势在于能自动处理编码问题，将输入文档转换为 Unicode 编码，输出为 utf-8 编码，省去了开发者处理编码的麻烦。由于它不属于 Python 标准库，需要单独安装，常用的安装命令有和。安装后，可通过在命令行中导入库并进行简单操作来测试是否安装成功，如，然后创建一个简单的 BeautifulSoup 对象并提取内容。

2025-07-30 16:55:21 595

原创 pyMySQL

完成对数据库的操作后，需要使用cursor.close()、connect.close()来关闭游标以及数据库的链接，释放资源tto。创建数据库链接对象数据库链接对象connect是Python和mysql数据库之间的桥梁和纽带，通过设置数据库的链接参数进行构造。获取到游标对象后，就可以使用cusor.execute(SQL语句)可以向连接的数据库中发送DDL、DML类型的SQL语句，如Insert into 、Update、Delete、select等。SQL语句的执行是构建在游标对象基础上。

2025-07-29 17:52:52 176

原创 MySQL 数据库综合总结

围绕 Student、Course、Teacher、Score 四张表展开，涵盖了建表、插入数据及各类查询操作，全面练习了 MySQL 数据库的基本操作与查询技巧。首先对四张表进行建表操作，设置 id 为各表主键，其他字段非空且有默认值，并为表和字段添加备注。

2025-07-28 14:40:38 295

原创 Mysql学习2

创建学生表（Student），含学生 ID（s_id，主键）、姓名（s_name）、生日（s_birth）、性别（s_sex，枚举类型，默认男）。课程表（Course）含课程 ID（c_id，主键）、课程名（c_name）、教师 ID（t_id）。成绩表（Score）含学生 ID（s_id）、课程 ID（c_id）、分数（s_score，默认 0），以 s_id 和 c_id 为联合主键。s_birth DATE NOT NULL DEFAULT '2000-01-01' COMMENT '学生生日',

2025-07-25 16:40:44 160

原创 MySQL数据库学习

数据库概念 MySQL简介 MySQL安装与配置 SQL语言概述 MySQL中使用的SQL语言 MySQL中数据定义（CREATE, ALTER, DROP） MySQL数据类型与约束。CREATE: 创建新的数据库对象，如数据库、表、索引、视图。删除表：DROP TABLE 表名;AUTO_INCREMENT：用于自动生成唯一的数字，每个表只允许有一个，通常用于主键列。FOREIGN KEY（MySQL 8.0及以上版本支持）：用于在两个表之间建立关系，一个表的外键列必须是另一个表的主键或唯一键的值。

2025-07-24 13:16:20 144

ygyqinghuan的博客

原创读懂决策树算法

原创决策树简单实战

原创 KNN 算法：从电影分类到鸢尾花识别

原创机器学习绪论

原创电商商品销售数据分析

原创基于 Python 的商品销售数据可视化分析

原创从数据爬取到可视化

原创用 Seaborn 玩转数据可视化：从入门到惊艳的实用指南

原创从零开始学 Matplotlib

原创 Pandas 的进阶

原创解锁 Pandas：数据处理

原创解锁NumPy：数据科学的基础工具

原创解锁NumPy：数据科学的基础工具

原创解锁NumPy：数据科学的基础工具

原创 BeautifulSoup 数据解析

原创 pyMySQL

原创 MySQL 数据库综合总结

原创 Mysql学习2

原创 MySQL数据库学习

原创静态网页爬取

原创数据存储的学习

原创 JavaScript开发基础

原创 HTML代码的学习

原创 HTML的学习

原创网络爬虫之登录豆瓣

原创爬虫之QQ表情包图片及手机号码归属地查询的爬取

原创爬虫技术的学习

空空如也

空空如也