- 博客(30)
- 收藏
- 关注
原创 朴素贝叶斯学习笔记:从原理到实战(J享)
要学朴素贝叶斯,得先明白 “贝叶斯思想” 到底在解决啥问题。托马斯・贝叶斯是 18 世纪的英国数学家,他生前写了篇解决 “逆概” 问题的文章,死后才被认可 —— 现在我们用的贝叶斯方法,根源就在这。拿 “猜穿长裤的是女生” 这个例子,我们可以一步步推导出贝叶斯公式。假设学校总人数是 U,穿长裤的女生数量是 “U× 女生概率(40%)× 女生穿长裤概率(50%)”,穿长裤的总人数是 “男生穿长裤人数 + 女生穿长裤人数”。
2025-08-25 16:59:05
375
原创 用线性回归预测加州房价(J享)
折腾下来,感觉线性回归就像个 “老实人”:原理简单、结果好解释(每个特征的权重能直接看出影响大小),但也有局限 —— 它只能捕捉线性关系。如果房价和某些特征的关系是曲线(比如 “房间数增加到一定程度后,房价增长变缓”),线性模型就会力不从心。
2025-08-22 15:14:45
493
原创 从聚类到集成,两种实用算法框架分享
聚类属于无监督学习的范畴 —— 简单说就是手里没有标签时,我们要把长得像的样本分到一组。比如给一堆用户数据,不需要提前知道 “高价值用户”“潜在用户” 这些标签,聚类算法能自动帮我们发现数据中隐藏的分组规律。
2025-08-21 14:31:37
370
原创 数据预处理实战(J享)
这些问题都会影响模型的训练效果。数据预处理就是通过一系列技术手段,将原始数据转化为适合模型输入的格式,主要包括和四大环节。
2025-08-20 12:43:29
295
原创 用决策树预测泰坦尼克号幸存者:附完整代码实现(J哥专享)
运行后能看到数据集里有这些字段:Survived(是否幸存)、Pclass(船舱等级)、Name(姓名)、Sex(性别)、Age(年龄)等。这一步发现了不少问题:Age 列有缺失(714/891),Cabin 列缺失更严重(204/891),Embarked 列少了 2 条数据。从图里能明显看到,当深度超过某个值后,训练集得分越来越高,但测试集得分开始下降,这就是过拟合的表现。找到那个平衡点,就是最优深度啦~() 检查,会发现所有列都是 889 条非空数据了,完美~
2025-08-19 18:01:59
396
原创 聊聊决策树:从原理到实战的机器学习利器(J哥专享)
决策树是机器学习中的 “入门利器”,其核心逻辑简单易懂,但深入研究后会发现它包含了信息论(熵)、优化思想(剪枝)和集成策略(随机森林等)。掌握它不仅能解决实际问题,更能帮你理解更复杂的算法。下次再看到 “要不要做某事” 的纠结时,不妨试试画一棵决策树 —— 或许答案就在其中。
2025-08-18 14:21:52
166
原创 聊聊 KNN:一个像 “看邻居“ 一样简单的算法(J哥专享)
说真的,KNN 的思路特别生活化。你可以把它理解成:想知道一个东西属于什么类别,就看看它周围最像的 k 个 "邻居" 是啥,多数邻居是啥,它就是啥。
2025-08-15 11:39:46
230
原创 机器学习的学习(J哥专享)
到底什么是机器学习呢?针对特定任务:比如下棋、判断西瓜好坏、预测房价等;有评判标准:比如赢棋、判断对的西瓜数量、预测房价的误差等;从数据中学习:通过分析大量历史数据,让机器慢慢 “摸出规律”,把事情做得更好。打个比方,就像我们学骑自行车,摔了很多次(积累数据),慢慢知道怎么保持平衡(总结规律),最后越骑越好(性能提升)。1.数据集:比如一堆西瓜的信息记录,合起来就是一个数据集;2.样本:数据集中的每一条记录,比如 “编号 1 的西瓜”;3.特征(属性)
2025-08-14 15:07:07
744
原创 电商数据分析实战:从数据处理到可视化预测,一篇搞定核心技巧(J享)
拿到数据集的第一步,往往是让数据 “规整” 起来,这其中最基础的操作就是。比如在电商美妆数据中,原始数据可能只有 “订单金额”“销量”,但通过计算添加 “客单价”(订单金额 / 销量)、“折扣力度”(实际支付 / 原价)等衍生列,能快速挖掘数据背后的业务逻辑。添加列的操作看似简单,却直接影响后续分析的深度。在实际操作中,建议结合业务场景设计衍生指标 —— 比如分析美妆产品时,添加 “复购率” 列(回购用户数 / 总用户数)可判断产品粘性,添加 “区域销量占比” 列能定位核心市场。
2025-08-13 19:36:21
791
原创 电商双11美妆数据分析
data.loc[data['是否男士专用'] == '是'].groupby('sub_type').sale_count.sum().plot.pie(autopct = '%0f%%',title = '男士各小类销售量占比', pctdistance=0.8)data.groupby('是否男士专用')['销售额'].sum().plot.pie(autopct = '%0f%%',title = '男士专用销售额占比', pctdistance=0.8)
2025-08-12 17:45:46
610
原创 爬虫与数据分析
要爬取数据,首先得了解网页的 “构造”。通过查看网页源代码发现,大学排名数据整齐地放在一个 HTML 表格中(标签为<table>),表格的每行对应一所大学(标签为<tr>),每行中的单元格(标签为<td>)则分别存储名次、学校名称、总分等信息。简单来说,网页中的数据就像一个 Excel 表格,我们只需要找到对应的 “行” 和 “列”,就能精准提取信息。代码实现:三步搞定数据爬取我们用 Python 的requests库获取网页内容,库解析网页结构,再用csv。
2025-08-11 17:34:46
304
原创 用 Seaborn 轻松搞定数据可视化(J享)
安装这步很简单,两种方式选一个就行:用 pip 的话,直接在终端敲习惯用 conda 的话,就输(国内用户可以试试清华源,速度会快很多,地址是装好后导入也方便,一般这么写:sns.set_theme() # 这行能设置主题,让图更好看说到主题,里的参数还挺有意思。style能选主题风格,比如默认的darkgrid(深色网格)、清爽的whitegrid(浅色网格),甚至可以选不带网格的dark或white。context则控制图里元素的大小,做笔记用notebook。
2025-08-08 16:12:30
303
原创 认识 Matplotlib(J享)
首先呢,Matplotlib 是 Python 的绘图库,能轻松把数据变成各种图表,静态、动态、交互式的都能搞定,像我们常见的散点图、柱状图它都能画。
2025-08-07 17:52:08
256
原创 数据科学与计算numpy(J哥专享)
返回数组的排序副本,支持指定轴(按行 / 列排序)和排序算法(快速排序、归并排序、堆排序);四舍五入(支持指定小数位数或负数位数操作整数部分)、进行编码转换(需注意编码格式匹配,否则会报错)。计算标准差(方差的平方根,更直观反映离散程度)。计算最大值与最小值的差值(极差)。计算加权平均值(需指定权重数组)。返回排序后的索引,便于重构原数组。:连接两个数组的字符串元素,例如。计算方差(衡量数据离散程度),计算指定百分比的分位数,例如。用分隔符连接数组元素,例如。求指定轴的最小值和最大值,每个单词首字母大写、
2025-08-05 15:52:19
363
原创 NumPy 数组操作核心技巧:从广播到维度调整
比如一个 4 行 3 列的数组和一个 1 行 3 列的数组相加。它会自动扩展那个小一点的数组,让两个数组能匹配上,然后再逐元素进行计算。:这个函数能在不改变数据的情况下,把数组改成指定的形状。:能把多维数组展平成一维数组,而且会返回一个副本,修改这个副本不会影响原来的数组。:也是把数组展平,但返回的是视图,就像给原数组起了个别名,修改它会影响原数组。:能去掉数组里那些维度为 1 的条目,让数组结构更简洁。:能把数组广播成指定的形状,不过会返回一个只读的视图。:能沿着指定的轴滚动数组维度,改变数组的形状。
2025-08-04 15:36:54
321
原创 数据科学与计算的学习2(J哥详享)
前期就是个打基础的部分,讲的都是 NumPy 的 “基本功”:怎么创建数组、改形状、遍历、做运算。但广播也有规矩:比如一个 2x3 的数组和一个 3x2 的数组,形状实在不搭,就会报错。,行优先遍历是 0→1→2→3→4→5,列优先就是 0→3→1→4→2→5。简单说,“广播” 就是让不同形状的数组能直接做运算,不用手动扩写。更省内存,返回的是原数组的 “视图”,改了新的,原数组也会跟着变 —— 用的时候得留意这点。维度(ndim):简单说就是 “几层括号”,一维数组是 1 层,二维是 2 层,以此类推。
2025-08-01 13:50:56
243
原创 NumPy :从安装到数组操作全解析
安装命令(推荐使用清华源加速):# 使用 pip 安装pip install numpy -i https://pypi.tuna.tsinghua.edu.cn/simple# 或使用 conda 安装conda install numpy导入方式:import numpy as np通过以下属性可快速了解数组特征: 属性 说明
2025-07-31 13:52:55
687
原创 BeautifulSoup 全面总结(J哥亲手创作)
BeautifulSoup 支持大部分的 CSS 选择器,在 Tag 或 BeautifulSoup 对象的.select () 方法中传入字符串参数(遵照 CSS 选择器的语法格式)即可使用。实际用中多为组合选择器,若对 CSS 选择器知识欠缺,可使用 Chrome 浏览器的开发者工具生成。soup.select (“CSS 选择器”) 获取 HTML 片段,返回类型为列表。类选择器使用点(.)作为前缀;获取首个对应标签,如。取所有 li 标签),
2025-07-30 16:53:12
250
原创 爬虫数据存储之 PyMySQL 全解析(J哥专享)
关系型数据库基于关系模式,以二维表的形式存储数据,表由行列组成,每一列是一个字段,每一行是一条记录。多个表组成一个数据库,表可看作实体的集合。常见的关系型数据库有 SQLite、MySQL、Oracle、SQL Server、DB2 等。在 Python 爬虫开发中,MySQL 因开源、高效等特性被广泛用于数据存储。将增、删、改、查操作封装为通用函数,减少重复代码。使用批量操作数据,提升存储效率。爬取分页数据时,通过解析下一页链接实现自动爬取。
2025-07-29 17:27:17
1219
原创 MySQL 数据库综合练习实战总结(J哥亲手创作)
作为各表主键(成绩表采用学生 ID + 课程 ID 联合主键),对非主键字段设置非空约束(如学生姓名、课程名),部分字段添加默认值(如学生性别默认 “男”、分数默认 0),同时为表和字段添加备注提升可读性。围绕学生(Student)、课程(Course)、教师(Teacher)、成绩(Score)四张核心表展开。条件筛选:如 “两门及以上不及格(<60 分)的学生”(子查询筛选符合条件的学生 ID,再关联查询详情)。查询每个学生的学生名字、课程名字、学生分数。教师统计:按教师分组查询教授课程数量(
2025-07-28 16:08:10
287
原创 MySQL 数据库核心操作(J哥特享)
避免 SELECT *,只查询需要的字段WHERE 条件优先筛选,减少后续处理数据量聚合查询时,GROUP BY 字段尽量提前筛选NULL 值判断需用 IS NULL,不能用 = 或!UPDATE/DELETE 务必加 WHERE 条件,避免全表操作多表连接时,确保关联字段类型一致(如店号均为数值型)理解 SELECT 执行顺序是优化查询的关键多表连接从内连接入手,再逐步掌握外连接子查询先测试内层逻辑,再逐步嵌套外层。
2025-07-25 18:03:05
714
原创 MySQL数据库基础的学习分享(J哥专享)
创建CREATE DATABASE 库名;-- 建库CREATE TABLE 表名(列名 类型);-- 建表修改ALTER TABLE 表名 ADD COLUMN 列名 类型;-- 加列删除DROP TABLE 表名;-- 删表DROP DATABASE 库名;-- 删库。
2025-07-24 14:25:29
361
原创 J哥教你学习静态网页Xpath的爬取
想要爬取数据,第一步是与目标网站建立连接并获取网页内容。Requests 库作为 Python 爬虫的 “瑞士军刀”,除了基础的 GET/POST 请求,其用法能解决更多实际问题:1.会话设置:通过维持会话状态,自动处理 Cookies,适合需要登录的场景(比如模拟用户登录后爬取个人中心数据)。例如登录 QQ 邮箱时,会话对象会保存登录状态,后续请求无需重复输入密码。2.文件上传:通过files参数模拟文件提交,只需将本地文件以二进制形式传入,即可实现像网页上传附件一样的操作。
2025-07-23 17:33:25
675
原创 (J哥专享)从前端交互到数据爬存:JavaScript 与爬虫存储实战指南
很多人会因为名字联想到 Java,但实际上 JavaScript 与 Java毫无关系—— 这只是早期 Netscape 公司为了借助 Java 的市场热度采用的营销策略。其发展历程清晰展现了定位的演变:从最初的 LiveScript,到更名为 JavaScript,最终成为前端浏览器的核心脚本语言。与 HTML、CSS 并称为前端三要素的它,分工明确:HTML 搭建网页骨架(如<div><p>等标签构成页面结构)CSS 负责美化(通过colorfont-size等属性定义样式)
2025-07-22 16:54:41
842
原创 J哥教你用 css 美化 html 做出的网页
样式与结构分离:优先用外联式或嵌入式,避免内联式(除非临时调整);复用性优先:同一类元素(如所有标题、表格)用统一样式,减少重复代码;视觉层次清晰:通过间距、颜色、对齐方式区分内容重要性(如主标题居中、次级标题加颜色)
2025-07-21 17:37:25
785
原创 Requests 模拟登录爬取实战:从原理到豆瓣登录实现(J哥专享)
模拟登录的核心:1.登录数据(用户名、密码),通过 POST 方式提交2.密码多经加密后传输3.需通过浏览器开发者工具分析登录请求 URL4.可能遇到图片验证码、滑动拼图等反爬验证。
2025-07-18 14:04:39
409
原创 更加深入了解爬虫技术(J哥专享)
通过手机号码归属地查询和 QQ 表情包下载两个案例,我们掌握了静态网页爬取的核心技能:文本数据爬取:重点处理 URL 参数、编码和响应文本提取。二进制文件爬取:重点处理r.content和wb模式写入。
2025-07-17 17:41:22
1077
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人