Lin9成-CSDN博客

原创数据集的预处理以及绘图

在这个过程中，我深刻体会到数据预处理的重要性，只有经过清洗和整理的数据，才能为后续的分析和绘图提供可靠的基础。后来通过反复查阅文档、观看教程，逐渐熟悉了框架的结构和用法，学会了设置合理的爬取规则，比如设置请求头模拟浏览器行为，避免被网站反爬机制拦截。在今后的学习和工作中，我会继续努力，不断探索和实践，将所学的知识运用到实际中，解决更多的问题。数据爬取是获取信息的第一步，也是整个过程的基础。在学习数据爬取、预处理及绘图的过程中，我收获颇丰，不仅掌握了相关的技术方法，更深刻体会到数据处理全流程的逻辑与奥秘。

2025-08-13 16:01:01 115

原创关于淘宝双十一

在本次以 “淘宝双十一” 为主题的数据分析实践中，我完整经历了从数据爬取、预处理到可视化分析的全流程，不仅掌握了具体的技术工具，更对数据分析的逻辑与价值有了更深的理解。

2025-08-12 16:31:21 757

原创爬虫与数据分析结合

爬虫、pandas、matplotlib 三者的结合，本质是 “数据获取 - 处理 - 呈现” 的流水线。工具是基础，思维是核心—— 爬虫需要 “目标导向”，pandas 需要 “严谨细致”，matplotlib 需要 “用户思维”。未来的学习中，我会继续深化这一流程，尝试加入更复杂的分析（如用 pandas 做时间序列分析）和可视化（如结合 seaborn 美化图表），让数据发挥更大的价值。

2025-08-11 15:06:43 1026

原创 Seaborn库

在数据科学与计算的学习中，Seaborn 库作为基于 Matplotlib 的高级数据可视化工具，给我带来了高效且美观的数据分析体验。它专注于统计图形绘制，能让复杂数据以更直观的方式呈现，大大降低了理解数据的难度。

2025-08-08 16:48:09 239

原创数据科学与计算（Matplotlib）

建议结合实际数据（如股票数据、鸢尾花数据集）多练习，例如：用散点图分析特征相关性，用直方图检查数据正态性，用折线图对比不同模型的准确率变化。坐标轴标签需明确（如 “时间（天）” 而非 “x”），标题需概括核心结论（如 “2023 年各季度销售额增长趋势”）。总之，Matplotlib 是数据科学的 “可视化利器”，初期可能因参数繁琐感到复杂，但随着实践深入，会逐渐体会到它的灵活性和强大功能。，能更灵活地控制多子图布局，尤其在复杂场景（如论文图表、仪表盘）中优势明显。函数有数十个参数），不必死记硬背。

2025-08-07 16:54:50 834

原创数据科学与计算Pandas

记得有一次处理一份客户信息数据，里面有很多缺失的电话号码和重复的记录，我利用 pandas 的这些函数，很快就完成了数据的清洗工作，为后续的分析打下了坚实的基础。但通过查阅官方文档和不断尝试，我慢慢掌握了这些函数的使用技巧，能够轻松地将各种格式的数据导入到 pandas 中进行处理，也能将处理好的数据以合适的格式导出。而对于时间序列数据，pandas 提供了丰富的函数来处理日期时间类型的数据，如时间索引的创建、时间范围的筛选、时间频率的转换等，让时间序列分析变得更加简单高效。

2025-08-06 18:21:37 245

原创数据科学与计算3

我认识到，排序函数不仅是数据整理的工具，更是提高后续数据分析效率的前提，合理运用排序函数能让复杂的数据变得井然有序，为后续的搜索、统计等操作节省大量时间。此外，字符串的模糊搜索，尤其是正则表达式的运用，极大地拓展了搜索的范围和灵活性，比如从大量文本中提取邮箱、手机号等特定信息，正则表达式能发挥巨大作用。字符串函数处理文本数据，算术函数和数学函数进行数值运算，统计函数分析数据特征，排序函数整理数据顺序，搜索函数定位关键信息，它们共同构成了数据科学与计算的基础工具链。

2025-08-05 18:57:23 267

原创数据科学与计算的数组操作

concatenate()、vstack()、hstack()等连接方法，需要注意数组结构的兼容性，这让我明白在进行数组组合时，必须对数组的维度和形状有清晰的把握。但通过实际操作对比，当修改展平后的数组时，观察原数组是否发生变化，我清晰地理解了两者的差异，也明白了在不同场景下该如何选择合适的方法。transpose()的转置功能在矩阵运算中非常实用，而flip()、fliplr()等方法则能根据不同的翻转需求精准操作，这让我意识到数组元素的排列顺序可以通过多种方式灵活调整，以适应不同的计算场景。

2025-08-04 11:22:18 268

原创数据科学与计算2numpy

随着学习的深入，我才明白 Numpy 的遍历更强调 “向量化操作”，即通过内置函数实现对整个数组的批量处理，而非逐个元素操作。但深入理解后发现，广播的核心在于 “自动扩展” 维度较小的数组，使其与维度较大的数组形状一致，从而进行元素级运算。总的来说，Numpy 的遍历、广播和翻转后滚这三个知识点，不仅是数据科学与计算的基础，更体现了高效处理数据的思维方式。在今后的学习和实践中，我将继续深入探索这些知识点的应用场景，充分发挥 Numpy 在数据处理中的优势，为数据分析和建模打下坚实的基础。

2025-08-01 16:34:13 147

原创数据科学与计算numpy

例如在特征工程中，对不同维度的特征进行标准化时，广播机制能简化代码，但前提是必须清晰理解每个特征数组的形状，否则极易出现 “维度不匹配” 的隐蔽错误。NumPy 的魅力，正在于它用简洁的接口封装了复杂的底层逻辑，让我们能专注于 “解决问题” 而非 “实现细节”。例如处理一张灰度图像时，列表可能需要用 “列表套列表” 的嵌套结构表示，而 NumPy 的二维数组不仅能直观对应图像的 “行 × 列” 维度，更能通过。）但广播并非无限制，必须满足 “从尾端维度开始，要么相等，要么其中一个为 1” 的规则。

2025-07-31 19:02:16 622

原创数据解析beautifulsoup

此外，标签的attrs属性是个隐藏利器，通过soup.find('a')['href']获取链接时，若遇到属性缺失可能引发 KeyError，此时用soup.find('a').get('href', '无链接')设置默认值，能让代码更健壮。使用 select () 方法时，“.” 代表类名，“#” 代表 ID，层级关系用空格分隔，例如soup.select('div.content p')能直接定位 class 为 content 的 div 下的所有 p 标签，比嵌套 find () 更直观。

2025-07-30 17:30:11 249

原创用Pymysql爬取网站

PyMySQL 核心用法是PyMySQL的使用包括以下四个步骤1.创建数据库链接对象2.获取游标对象3.执行SQL语句4.提交事务,关闭链接PyMySQL默认是开启事务的，必须通过函数进行提交才能完成对数据库的操作。执行 SQL：通过执行插入 / 查询，提交修改，回滚错误关闭连接：操作完成后需关闭 cursor 和 conn，避免资源泄露爬虫基础要点；网页请求：使用获取页面内容解析方法：BeautifulSoup 的find()find_all()

2025-07-29 16:58:47 109

原创 MySQL的学习与NAVICAT的应用

此外，Navicat 的备份与恢复功能，让我轻松实现数据库的定时备份，这与 MySQL 的事务日志知识相结合，构建了更完整的数据安全保障体系。Navicat 的用户管理功能也很实用，能方便地创建不同权限的用户，对应 MySQL 中的 DCL 语句，让我对数据库权限控制有了更直观的操作体验。我了解到主键索引、唯一索引、普通索引的区别，通过在 Navicat 的表设计界面中添加索引，再对比查询速度，直观感受到了索引对性能的优化作用。而通过 Navicat 的可视化操作，又能加深对知识点的理解和应用能力。

2025-07-28 16:08:52 262

原创 MySQL数据库基础(2)

多表合并，表查询（JOIN）是查询的进阶难点，核心是理解表之间的关联关系（一对一、一对多、多对多）。返回左表所有记录，右表无匹配则补 NULL（如显示所有学生，包括未选课的学生）；），则需避免重复插入，UPDATE 和 DELETE 是 “高危操作”，一旦缺少条件或条件错误，可能导致全表数据被误改或删除。今天更深度的了解了MySQL，NSERT 的核心是将数据准确 “嵌入” 表结构，而约束是绕不开的门槛。生产环境中建议开启事务，操作后检查结果，无误再提交，错误则回滚。统计所有行数（包括 NULL），

2025-07-25 16:03:38 444

原创 MySQL数据库基础

今天还学习了几种制作列表，副表，并且自己学习了用insert into往表格里添加内容，首先不同的内容在MySQL中是有不同限制的，我们需要根据自己要填入什么样的内容，例如文本，数字，符号等找出相应的代码，比如 create table seven(students INT PRIMARY KEY AUTO_INCREMENT,birthday VARCHAR(50) NOT NULL);DQL（数据查询语言）中的 SELECT 语句是使用频率最高的，也是最能体现逻辑思维的部分。

2025-07-24 15:18:33 372

原创爬虫应用开发

印象最深的是某次爬取电商网站商品信息，明明在开发者工具中能定位到的节点，用相同 XPath 表达式却返回空值。今天我就通过自己的学习，爬取了一个图书网站的内容，接下来就是我的代码展示。lxml是一种解析库，我们可以通过pip install lxml来下载，Xpath使用路径表达式在XML文档中进行导航，包含一个标准函数库，是XSLT中的主要元素。今天了解了爬虫进阶开发应用，我们可以运用爬虫可以在网站中爬取很多信息，例如图书网中的书名，作者和价格等，首先我们了解了Xpath，Xpath。

2025-07-23 16:17:10 738

原创根据HTML进阶制造网站以及Java的学习

今天的学习是昨天制造的网站的进阶版，在c罗的网站上优化了布局和格式等，并且增加了一个隐藏数据，和选择按钮，因为c罗效力过不同的俱乐部，我统计了在不同俱乐部的数据，随后在点击相应的俱乐部会在表格中显示出详细的数据，包括c罗的个人简介和照片展示，还提供了社交媒体链接，可直接访问c罗的官方账号，页面采用响应式设计，在不同的设备上都能良好展示，CSS样式美化了页面元素，JavaScript实现了俱乐部数据的动态切换功能，今天了解了Java和Css。前者是前端技术栈的基础，后者则更多应用于后端开发。

2025-07-22 17:49:54 758

原创学习HTML后初步制作网站

input type="image" src="https://picsum.photos/id/1062/100/40" alt="官方标志" width="80"><img src="https://picsum.photos/id/1074/600/300" alt="C罗比赛照片" width="600" height="300">出生日期:<input type="text" name="birthdate" value="1985-02-05" readonly><br>

2025-07-21 16:04:58 386

2301_77371577的博客