- 博客(27)
- 收藏
- 关注
原创 读懂决策树算法
可能会依次考虑 “天气如何”“温度是否适宜”“湿度高不高”—— 这种层层判断的过程,正是决策树的工作逻辑。决策树由根节点(起始判断条件)、内部节点(中间判断条件)、叶节点(最终结果)和分支(判断结果)组成。案例:用 “是否出去玩” 数据集(如下),ID3 会计算 “天气”“温度” 等特征的信息增益,选择增益最大的特征作为根节点。公式:Gain(D,a)=H(D)−∑v=1V∣D∣∣Dv∣H(Dv)(Dv为特征 a 取第 v 个值的子集)。信息增益:某特征划分后,信息熵的减少量(“纯度提升”)。
2025-08-19 16:34:01
22
原创 KNN 算法:从电影分类到鸢尾花识别
这时候,KNN 算法就派上用场了 —— 它的核心逻辑是:"物以类聚,人以群分",新样本的类别由离它最近的 K 个 "邻居" 决定。比如在电影分类的例子中,若我们设 K=3,就找出与《Amped II》距离最近的 3 部已知电影。比如在网格状的街道上,从 (1,2) 到 (3,5) 的距离是 (3-1)+(5-2)=5。是爱情片还是动作片?算距离:计算新数据与已知数据集中每个样本的距离(比如打斗镜头和接吻镜头的 "差异");选邻居:挑选距离最近的 K 个样本(K 是我们自己设定的数,通常不超过 20);
2025-08-15 10:38:22
246
原创 机器学习绪论
针对一个特定任务(比如判断西瓜好坏、预测房价);设定明确的评判标准(比如 "判断正确的比例");通过分析大量历史数据(经验),让任务完成得越来越好。
2025-08-14 13:33:26
636
原创 电商商品销售数据分析
总评论数高的店铺通常销量也较高,但评论意愿(销量 / 评论数比值)与销量无直接关联,可能受商品类型(如美妆类商品用户更爱评论)或店铺引导(如评论返现活动)影响。多数店铺的非男士专用商品销量 / 销售额远高于男士商品,符合大众消费市场的普遍规律;除了店铺和商品类型维度,我们还分析了销售数据随时间的变化趋势。可能存在周期性规律(如周末销量高峰)或突发峰值(如大促期间),为库存管理和营销活动策划提供参考。清晰呈现了各店铺不同类型男士商品的销量差异,例如可快速识别哪些店铺的男士化妆品(代码中单独提取。
2025-08-13 09:55:35
212
原创 基于 Python 的商品销售数据可视化分析
商品标题中包含了丰富的信息(如品类、适用人群等),但原始标题是连续的字符串,无法直接用于分析。在进行可视化分析前,我们需要先对原始数据进行预处理,将其转化为便于分析的格式。例如,“男士保湿面霜” 会被拆分为 ["男士", "保湿", "面霜", "保湿面霜"],为后续的类别标注和人群定位提供了关键词基础。品牌是消费者选择商品的重要参考,我们从 “商品数量”“总销量”“总销售额” 和 “平均单价” 四个指标对比不同品牌的表现:python。1. 品牌表现分析:谁是市场 “优等生”?
2025-08-12 16:44:37
301
原创 从数据爬取到可视化
例如豆瓣电影评分段占比:8.5-9 分的电影占 56.8%,直观反映 Top250 电影的评分集中趋势。在鸢尾花数据中,通过热力图发现花瓣长度与花瓣宽度的相关系数达 0.96,说明二者高度相关,为后续分类分析提供依据。箱线图:展示数据的四分位数、中位数,如鸢尾花萼片长度的分布,可快速识别不同品种的差异。小提琴图:结合箱线图与核密度估计,更全面呈现数据分布形态,如电影评分的整体分布密度。:定位小说名称、作者、月票数等字段,将数据结构化后保存,为后续分析打下基础。:如将电影评分的空值替换为 “暂无评分”,用。
2025-08-11 16:28:08
392
原创 用 Seaborn 玩转数据可视化:从入门到惊艳的实用指南
箱子的中间线是中位数,箱子上下沿是四分位, outliers(异常值)会以点的形式标出 —— 数据分布的 “秘密” 全在图里。小提琴的 “宽度” 代表该位置数据的密度 —— 实验组的数值整体偏高,且在 18 附近最集中,这些信息比箱线图更丰富。散点图的点越集中在一条直线附近,说明变量相关性越强 —— 上面的例子显然是正相关。想同时看数据的分布形状和统计特征?想知道数据的分布特征(中位数、四分位、异常值)?箱线图是 “透视镜”。分析多个变量的相关性?跟踪数据随时间的变化?比较不同类别的数值?
2025-08-08 11:16:40
129
原创 Pandas 的进阶
Pandas 支持多种数据格式的读取,无需手动解析文件,极大提升了数据导入效率。、"n/a" 等),若不处理会影响分析结果。Pandas 提供了一套完整的缺失值处理方案。:用列的均值(mean)或中位数(median)填充,更符合数据分布。:需先定义哪些值被视为缺失(如 "n/a"、"na"),避免漏判。方法可判断每个单元格是否为缺失值,返回布尔值(:用指定数值(如 0、666)替换缺失值。导入数据后,我们通常需要快速查看内容,实际数据中常存在缺失值(如空值、示例:删除含任何缺失值的行。
2025-08-06 17:02:37
301
原创 解锁NumPy:数据科学的基础工具
在数据科学领域,NumPy 的数组操作是高效处理数据的基础。本文基于相关 PPT 前 35 页内容,提炼数组操作的核心方法,助你快速掌握关键技巧。
2025-08-01 14:18:20
158
原创 解锁NumPy:数据科学的基础工具
full()函数则更加灵活,允许我们用指定的值填充数组,比如np.full([3, 2], fill_value=1024, dtype='i4'),就能得到一个 3 行 2 列、元素都是 1024 的数组。如果需要全是 0 的数组,zeros()函数是最佳选择,它能创建指定大小、元素全为 0 的数组。同理,ones()函数创建的是全为 1 的数组。arange()函数可以生成一个指定范围和步长的数组,例如np.arange(1,11,2),会得到[1, 3, 5, 7, 9]这样的结果。
2025-07-31 13:17:00
119
原创 BeautifulSoup 数据解析
BeautifulSoup 是一个用于解析 HTML 和 XML 文档的 Python 库,它提供了简单的函数来处理导航、搜索和修改分析树等操作。其突出优势在于能自动处理编码问题,将输入文档转换为 Unicode 编码,输出为 utf-8 编码,省去了开发者处理编码的麻烦。由于它不属于 Python 标准库,需要单独安装,常用的安装命令有和。安装后,可通过在命令行中导入库并进行简单操作来测试是否安装成功,如,然后创建一个简单的 BeautifulSoup 对象并提取内容。
2025-07-30 16:55:21
595
原创 pyMySQL
完成对数据库的操作后,需要使用cursor.close()、connect.close()来关闭游标以及数据库的链接,释放资源tto。创建数据库链接对象 数据库链接对象connect是Python和mysql数据库之间的桥梁和纽带,通过设置数据库的链接参数进行构造。获取到游标对象后,就可以使用cusor.execute(SQL语句)可以向连接的数据库中发送DDL、DML类型的SQL语句,如Insert into 、Update、Delete、select等。SQL语句的执行是构建在游标对象基础上。
2025-07-29 17:52:52
176
原创 MySQL 数据库综合总结
围绕 Student、Course、Teacher、Score 四张表展开,涵盖了建表、插入数据及各类查询操作,全面练习了 MySQL 数据库的基本操作与查询技巧。首先对四张表进行建表操作,设置 id 为各表主键,其他字段非空且有默认值,并为表和字段添加备注。
2025-07-28 14:40:38
295
原创 Mysql学习2
创建学生表(Student),含学生 ID(s_id,主键)、姓名(s_name)、生日(s_birth)、性别(s_sex,枚举类型,默认男)。课程表(Course)含课程 ID(c_id,主键)、课程名(c_name)、教师 ID(t_id)。成绩表(Score)含学生 ID(s_id)、课程 ID(c_id)、分数(s_score,默认 0),以 s_id 和 c_id 为联合主键。s_birth DATE NOT NULL DEFAULT '2000-01-01' COMMENT '学生生日',
2025-07-25 16:40:44
160
原创 MySQL数据库学习
数据库概念 MySQL简介 MySQL安装与配置 SQL语言概述 MySQL中使用的SQL语言 MySQL中数据定义(CREATE, ALTER, DROP) MySQL数据类型与约束。CREATE: 创建新的数据库对象,如数据库、表、索引、视图。删除表:DROP TABLE 表名;AUTO_INCREMENT:用于自动生成唯一的数字,每个表只允许有一个,通常用于主键列。FOREIGN KEY(MySQL 8.0及以上版本支持):用于在两个表之间建立关系,一个表的外键列必须是另一个表的主键或唯一键的值。
2025-07-24 13:16:20
144
原创 静态网页爬取
Xpath 是 XML 路径语言,可遍历 XML/HTML 元素和属性,有常用规则、谓语、通配符等,结合 lxml 库的 etree 模块能解析网页。row.xpath("p[@class='update']/span/text()")[0] # 更新日期。row.xpath("p[@class='author']/a/text()")[0], # 作者。row.xpath("p[2]/text()")[0].strip(), # 摘要(去除空格)通过学习可以自己爬取,感兴趣的小伙伴可以借鉴哈。
2025-07-23 16:44:20
211
原创 数据存储的学习
有时需要把几个变量写入txt文件中,这时分隔符就比较重要了。可以采用Tab进行分隔,用"\t".join()将变量连接成一个字符串。使用Pandas进行CSV文件输出,输入数据类型最好为字典类型。以下案例为字典类型输入输出为CSV文件。robot协议Web服务器默认接收人类访问 网络爬虫将会为Web服务器带来巨大的资源开销。数据存储主要包括:Robot协议,txt文件存储,csv文件存储。使用csv.reader()函数读取数据。
2025-07-22 18:46:12
198
1
原创 JavaScript开发基础
变量用var定义,类型由赋值决定,可通过typeof运算符判断,数据类型有 number、string、object 等。函数定义有特定语法,流程控制包含顺序、选择(if-else if、switch)、循环(while、do-while、for)结构。它与 HTML、CSS 协同作用:HTML 构建页面骨架,CSS 装饰页面,JavaScript 实现动态效果。alert("欢迎来到我的页面," + userName + "!console.log("5加3的结果是:" + result);
2025-07-22 16:28:50
168
原创 HTML的学习
基本语法方面,HTML 标签多为尖括号包围的关键字,分双标签(如)和单标签(如)。明确 HTML 的定义:超文本标记语言,非编程语言,“超文本” 体现在两方面,一是可嵌入图片、声音等多媒体内容,二是能通过链接跳转至其他文件或主机资源。水平线:标记,可通过 width(宽度),size(高度),color(颜色),align(对齐)等属性自定义样式。文字修饰:粗体,斜体,上下标,下划线,删除线等;标题标记:到,字体大小依次递减,可通过 align 属性设置左、中、右对齐。常用标记详细说明如下:。
2025-07-18 14:20:29
99
原创 网络爬虫之登录豆瓣
import requestsheaders={ "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) " "AppleWebKit/537.36 (KHTML, like Gecko) " "Chrome/111.0.0.0 Safari/537.36 Edg/111.0.1661.41", "Cookie&
2025-07-18 14:15:35
329
原创 爬虫技术的学习
流程:通过HTTP协议请求网页,解析响应内容(HTML、CSS、JS)。requests.get():发送GET请求,适合参数通过URL传递。requests.post():发送POST请求,适合表单提交等场景。-r.status_code:状态码(如200表示成功)。功能:Python的HTTP库,简化请求发送和响应处理。分类:通用爬虫、聚焦爬虫、增量式爬虫、深层网络爬虫。r.text:响应内容(HTML文本)。静态网页爬取:如获取网页HTML、下载图片。r.headers:响应头信息。
2025-07-16 14:05:34
791
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人