- 博客(22)
- 收藏
- 关注
原创 数据集的预处理以及绘图
在这个过程中,我深刻体会到数据预处理的重要性,只有经过清洗和整理的数据,才能为后续的分析和绘图提供可靠的基础。后来通过反复查阅文档、观看教程,逐渐熟悉了框架的结构和用法,学会了设置合理的爬取规则,比如设置请求头模拟浏览器行为,避免被网站反爬机制拦截。在今后的学习和工作中,我会继续努力,不断探索和实践,将所学的知识运用到实际中,解决更多的问题。数据爬取是获取信息的第一步,也是整个过程的基础。在学习数据爬取、预处理及绘图的过程中,我收获颇丰,不仅掌握了相关的技术方法,更深刻体会到数据处理全流程的逻辑与奥秘。
2025-08-13 16:01:01
115
原创 关于淘宝双十一
在本次以 “淘宝双十一” 为主题的数据分析实践中,我完整经历了从数据爬取、预处理到可视化分析的全流程,不仅掌握了具体的技术工具,更对数据分析的逻辑与价值有了更深的理解。
2025-08-12 16:31:21
757
原创 爬虫与数据分析结合
爬虫、pandas、matplotlib 三者的结合,本质是 “数据获取 - 处理 - 呈现” 的流水线。工具是基础,思维是核心—— 爬虫需要 “目标导向”,pandas 需要 “严谨细致”,matplotlib 需要 “用户思维”。未来的学习中,我会继续深化这一流程,尝试加入更复杂的分析(如用 pandas 做时间序列分析)和可视化(如结合 seaborn 美化图表),让数据发挥更大的价值。
2025-08-11 15:06:43
1026
原创 Seaborn库
在数据科学与计算的学习中,Seaborn 库作为基于 Matplotlib 的高级数据可视化工具,给我带来了高效且美观的数据分析体验。它专注于统计图形绘制,能让复杂数据以更直观的方式呈现,大大降低了理解数据的难度。
2025-08-08 16:48:09
239
原创 数据科学与计算(Matplotlib)
建议结合实际数据(如股票数据、鸢尾花数据集)多练习,例如:用散点图分析特征相关性,用直方图检查数据正态性,用折线图对比不同模型的准确率变化。坐标轴标签需明确(如 “时间(天)” 而非 “x”),标题需概括核心结论(如 “2023 年各季度销售额增长趋势”)。总之,Matplotlib 是数据科学的 “可视化利器”,初期可能因参数繁琐感到复杂,但随着实践深入,会逐渐体会到它的灵活性和强大功能。,能更灵活地控制多子图布局,尤其在复杂场景(如论文图表、仪表盘)中优势明显。函数有数十个参数),不必死记硬背。
2025-08-07 16:54:50
834
原创 数据科学与计算Pandas
记得有一次处理一份客户信息数据,里面有很多缺失的电话号码和重复的记录,我利用 pandas 的这些函数,很快就完成了数据的清洗工作,为后续的分析打下了坚实的基础。但通过查阅官方文档和不断尝试,我慢慢掌握了这些函数的使用技巧,能够轻松地将各种格式的数据导入到 pandas 中进行处理,也能将处理好的数据以合适的格式导出。而对于时间序列数据,pandas 提供了丰富的函数来处理日期时间类型的数据,如时间索引的创建、时间范围的筛选、时间频率的转换等,让时间序列分析变得更加简单高效。
2025-08-06 18:21:37
245
原创 数据科学与计算3
我认识到,排序函数不仅是数据整理的工具,更是提高后续数据分析效率的前提,合理运用排序函数能让复杂的数据变得井然有序,为后续的搜索、统计等操作节省大量时间。此外,字符串的模糊搜索,尤其是正则表达式的运用,极大地拓展了搜索的范围和灵活性,比如从大量文本中提取邮箱、手机号等特定信息,正则表达式能发挥巨大作用。字符串函数处理文本数据,算术函数和数学函数进行数值运算,统计函数分析数据特征,排序函数整理数据顺序,搜索函数定位关键信息,它们共同构成了数据科学与计算的基础工具链。
2025-08-05 18:57:23
267
原创 数据科学与计算的数组操作
concatenate()、vstack()、hstack()等连接方法,需要注意数组结构的兼容性,这让我明白在进行数组组合时,必须对数组的维度和形状有清晰的把握。但通过实际操作对比,当修改展平后的数组时,观察原数组是否发生变化,我清晰地理解了两者的差异,也明白了在不同场景下该如何选择合适的方法。transpose()的转置功能在矩阵运算中非常实用,而flip()、fliplr()等方法则能根据不同的翻转需求精准操作,这让我意识到数组元素的排列顺序可以通过多种方式灵活调整,以适应不同的计算场景。
2025-08-04 11:22:18
268
原创 数据科学与计算2numpy
随着学习的深入,我才明白 Numpy 的遍历更强调 “向量化操作”,即通过内置函数实现对整个数组的批量处理,而非逐个元素操作。但深入理解后发现,广播的核心在于 “自动扩展” 维度较小的数组,使其与维度较大的数组形状一致,从而进行元素级运算。总的来说,Numpy 的遍历、广播和翻转后滚这三个知识点,不仅是数据科学与计算的基础,更体现了高效处理数据的思维方式。在今后的学习和实践中,我将继续深入探索这些知识点的应用场景,充分发挥 Numpy 在数据处理中的优势,为数据分析和建模打下坚实的基础。
2025-08-01 16:34:13
147
原创 数据科学与计算numpy
例如在特征工程中,对不同维度的特征进行标准化时,广播机制能简化代码,但前提是必须清晰理解每个特征数组的形状,否则极易出现 “维度不匹配” 的隐蔽错误。NumPy 的魅力,正在于它用简洁的接口封装了复杂的底层逻辑,让我们能专注于 “解决问题” 而非 “实现细节”。例如处理一张灰度图像时,列表可能需要用 “列表套列表” 的嵌套结构表示,而 NumPy 的二维数组不仅能直观对应图像的 “行 × 列” 维度,更能通过。)但广播并非无限制,必须满足 “从尾端维度开始,要么相等,要么其中一个为 1” 的规则。
2025-07-31 19:02:16
622
原创 数据解析beautifulsoup
此外,标签的attrs属性是个隐藏利器,通过soup.find('a')['href']获取链接时,若遇到属性缺失可能引发 KeyError,此时用soup.find('a').get('href', '无链接')设置默认值,能让代码更健壮。使用 select () 方法时,“.” 代表类名,“#” 代表 ID,层级关系用空格分隔,例如soup.select('div.content p')能直接定位 class 为 content 的 div 下的所有 p 标签,比嵌套 find () 更直观。
2025-07-30 17:30:11
249
原创 用Pymysql爬取网站
PyMySQL 核心用法是PyMySQL的使用包括以下四个步骤1.创建数据库链接对象2.获取游标对象3.执行SQL语句4.提交事务,关闭链接PyMySQL默认是开启事务的,必须通过函数进行提交才能完成对数据库的操作。执行 SQL:通过执行插入 / 查询,提交修改,回滚错误关闭连接:操作完成后需关闭 cursor 和 conn,避免资源泄露爬虫基础要点;网页请求:使用获取页面内容解析方法:BeautifulSoup 的find()find_all()
2025-07-29 16:58:47
109
原创 MySQL的学习与NAVICAT的应用
此外,Navicat 的备份与恢复功能,让我轻松实现数据库的定时备份,这与 MySQL 的事务日志知识相结合,构建了更完整的数据安全保障体系。Navicat 的用户管理功能也很实用,能方便地创建不同权限的用户,对应 MySQL 中的 DCL 语句,让我对数据库权限控制有了更直观的操作体验。我了解到主键索引、唯一索引、普通索引的区别,通过在 Navicat 的表设计界面中添加索引,再对比查询速度,直观感受到了索引对性能的优化作用。而通过 Navicat 的可视化操作,又能加深对知识点的理解和应用能力。
2025-07-28 16:08:52
262
原创 MySQL数据库基础(2)
多表合并,表查询(JOIN)是查询的进阶难点,核心是理解表之间的关联关系(一对一、一对多、多对多)。返回左表所有记录,右表无匹配则补 NULL(如显示所有学生,包括未选课的学生);),则需避免重复插入,UPDATE 和 DELETE 是 “高危操作”,一旦缺少条件或条件错误,可能导致全表数据被误改或删除。今天更深度的了解了MySQL,NSERT 的核心是将数据准确 “嵌入” 表结构,而约束是绕不开的门槛。生产环境中建议开启事务,操作后检查结果,无误再提交,错误则回滚。统计所有行数(包括 NULL),
2025-07-25 16:03:38
444
原创 MySQL数据库基础
今天还学习了几种制作列表,副表,并且自己学习了用insert into往表格里添加内容,首先不同的内容在MySQL中是有不同限制的,我们需要根据自己要填入什么样的内容,例如文本,数字,符号等找出相应的代码,比如 create table seven(students INT PRIMARY KEY AUTO_INCREMENT,birthday VARCHAR(50) NOT NULL);DQL(数据查询语言)中的 SELECT 语句是使用频率最高的,也是最能体现逻辑思维的部分。
2025-07-24 15:18:33
372
原创 爬虫应用开发
印象最深的是某次爬取电商网站商品信息,明明在开发者工具中能定位到的节点,用相同 XPath 表达式却返回空值。今天我就通过自己的学习,爬取了一个图书网站的内容,接下来就是我的代码展示。lxml是一种解析库,我们可以通过pip install lxml来下载,Xpath使用路径表达式在XML文档中进行导航,包含一个标准函数库,是XSLT中的主要元素。今天了解了爬虫进阶开发应用,我们可以运用爬虫可以在网站中爬取很多信息,例如图书网中的书名,作者和价格等,首先我们了解了Xpath,Xpath。
2025-07-23 16:17:10
738
原创 根据HTML进阶制造网站以及Java的学习
今天的学习是昨天制造的网站的进阶版,在c罗的网站上优化了布局和格式等,并且增加了一个隐藏数据,和选择按钮,因为c罗效力过不同的俱乐部,我统计了在不同俱乐部的数据,随后在点击相应的俱乐部会在表格中显示出详细的数据,包括c罗的个人简介和照片展示,还提供了社交媒体链接,可直接访问c罗的官方账号,页面采用响应式设计,在不同的设备上 都能良好展示,CSS样式美化了页面元素,JavaScript实现了俱乐部数据的动态切换功能,今天了解了Java和Css。前者是前端技术栈的基础,后者则更多应用于后端开发。
2025-07-22 17:49:54
758
原创 学习HTML后初步制作网站
input type="image" src="https://picsum.photos/id/1062/100/40" alt="官方标志" width="80"><img src="https://picsum.photos/id/1074/600/300" alt="C罗比赛照片" width="600" height="300">出生日期:<input type="text" name="birthdate" value="1985-02-05" readonly><br>
2025-07-21 16:04:58
386
原创 HTML开发基础
今天的第二节课学习了HTML,是指一种超文本的标记语言,切记HTML不是一种编程语言,运用不到编程中,它是一种标记语言,所谓超文本有两种含义,它可以加入图片,声音,动画,多媒体等内容,它还可以从一个文件跳转另一个文件,与世界各地主机的文件连接。HTML标记有很多种类型,包含标题字标记,标题字的对称属性,段落标记,段落对齐属性,水平线标记,文字修饰的标记,粗体标记和斜体标记,上标标记,下标标记,下划线标记,删除线标记,还有设置字体属性,我们常用的实体符号。:当图片无法显示的时候,显示的提示信息。
2025-07-18 19:08:24
309
原创 爬虫应用开法
Cookie其实是存储在浏览器中的纯文本,当网页要法http请求时,浏览器会先检查是否有相应的Cookie,cookie的存在自动处理大大的免去了许多重复添加的操作,就比如我们在第一次通过账号密码或者短信验证码登录一个网站,这之后再次进入网站可能就不需要再次登录,这些就是Cookies和Session的作用,Cookies最典型的应用就是判断用户是否登陆过网站,另一个重要的应用是购物车中类的处理和设计,cookies我们可以通过浏览器的开发者人员工具中查看。print("获取个人主页成功")
2025-07-18 14:50:02
1244
原创 静态网页爬取模块Requests
在此之后又学习了Requests实现模拟登录,了解了cookie,就是用来判断用户是否登录过网站,网站可以留下一些信息,我们通过浏览器开发者工具就可以看到cookies,还有session机制,是一种服务器的机制,可以用列表来保存信息,可以在为用户创建一个Session时,服务器会检查cookies中是否包含了Session标识,cookies可以保存session id,服务器也可以通过URL重写的方式传递Session id。接下来是爬取手机号码归属地的代码。
2025-07-17 15:37:27
782
原创 爬虫的初步学习
今天在基地培训上了本次基地培训的第一课爬虫,了解了网络爬虫是一种按照一定规则,自动抓取万维网信息的程序或者脚本,如谷歌,百度这些,也意识到网络爬虫是搜索引擎的重要组成部分,爬虫分为很多种技术,通用网络爬虫,聚焦网络爬虫,增量式网络爬虫,深层网络爬虫,并且了解了网页的组成,http的基本原理,认识了uri和url.好奇了好几年网址打不开显示404的我现在深刻的认识到之前再访问学校官网或者是其它网址出现404是什么意思!if __name__ == "__main__": 注释:测试接口。
2025-07-16 14:39:28
818
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人