2301_82191992-CSDN博客

原创 kmeans聚类

集成算法：把许多“弱专家”按不同策略（Bagging/Boosting/Stacking）组合起来，得到远超单个模型的强预测力。K-Means：没有标签也能把数据按“谁离谁更近”自动分成 K 堆，简单、快，但 K 值和簇形状是硬伤。

2025-08-21 12:23:45 635

本文介绍了数据预处理的关键步骤：缺失值处理（检测、删除/填充）、数据标准化（Min-Max标准化和Z值标准化）以及特征编码（One-Hot编码、序号编码和二值化）。重点讲解了Scikit-learn库中SimpleImputer、StandardScaler等工具的使用方法，强调fit-transform流程和reshape(-1,1)的形状调整技巧。通过清洗（缺失值处理）、缩放（标准化）和编码（特征转换）的三步预处理流程，可有效提升机器学习模型的性能。文中还演示了数据切分、二值化阈值设置等具体操作示例。

2025-08-20 14:46:36 373

原创决策树8.19

决策树算法比较与实现分析：本文系统介绍了ID3、C4.5和CART三种决策树算法，重点对比了它们的分裂标准（信息增益、信息增益率和基尼系数）及适用场景。通过泰坦尼克号数据集预测实例，详细阐述了数据预处理、模型训练与评估全过程，包括缺失值处理、离散特征转换及网格搜索调参。实验结果显示最优模型准确率达82%，但存在过拟合现象。文章强调决策树需通过剪枝策略（预剪枝和后剪枝）平衡模型复杂度，并指出特征工程对模型性能的关键影响，为决策树应用提供了实践指导。

2025-08-19 13:49:31 486

原创 8.18决策树

决策树是一种用于分类和回归的树形模型，通过特征选择和节点分割进行决策。其核心在于利用信息增益选择最优特征作为节点，以熵来衡量分类纯度。训练时递归选择信息增益最大的特征构建树，测试时遍历树得到结果。文中以"是否打球"为例，演示了如何计算初始熵、条件熵和信息增益，并强调加权计算的重要性。课堂练习通过"浮出水面"和"脚蹼"特征进一步巩固了特征选择方法。决策树通过层层特征选择，逐步降低不确定性，最终实现有效分类。

2025-08-18 16:24:30 990

原创 KNN 算法

摘要： KNN算法通过计算新数据与训练集的最近邻距离进行分类（K表示邻居数量）。核心步骤包括：距离计算（欧式/曼哈顿距离）、排序取前K个邻居、多数表决分类。关键点：K值需合理选择（通常<20），特征需标准化。以鸢尾花数据集为例，代码实现包括数据划分、模型训练（KNeighborsClassifier）及评估（准确率、预测）。注意事项：KNN适用于分类/回归，测试集不可参与训练。

2025-08-15 14:38:56 314

原创机器学习概述（一）

机器学习是通过分析数据优化任务效果的技术，广泛应用于图像识别、医疗诊断等领域。核心概念包括数据集、特征向量、监督/无监督学习等。模型需平衡欠拟合（模型简单）和过拟合（模型复杂），可通过交叉验证等方法评估。评估指标如查准率、查全率等帮助判断模型性能。奥卡姆剃刀原理指出应选择简单有效的模型。本文系统介绍了机器学习的基础知识、常见问题及解决方案，为入门者提供了全面的学习框架。

2025-08-14 16:17:40 929

原创数据分析—双十一

首先识别数据中各列的数据类型，并计算统计量，包括标准差、最小值、最大值、四分位数等，为后续分析提供基础数据支持。检测到数据中共有86条重复记录，将其删除后重置行索引，数据量从27598条减少至27512条，确保数据的唯一性。发现“销售数量”和“评论数量”两列存在缺失值。经过分析后，决定用零填充这些空值，以保证数据的完整性。

2025-08-12 16:35:09 1326

原创实践811

该程序实现了从网页抓取赤峰市月度气象数据并进行分析处理的功能。主要包含三个核心函数：get_html()通过requests库获取网页内容，parse_table()使用BeautifulSoup和正则表达式提取气温等表格数据，save_csv()将数据存储为CSV文件。程序还提供了数据处理功能，包括删除含零行、替换空值（均值/中位数）以及生成多种可视化图表（柱状图、饼图等）来展示空气质量指数。整个流程实现了从数据采集、清洗到分析可视化的完整闭环。

2025-08-11 18:15:18 558

原创 matplotlib seaborn

Matplotlib是Python中功能强大的绘图库，广泛应用于数据可视化。它支持多种图表类型，包括散点图、柱形图、饼图、直方图等，并提供了丰富的自定义选项，如标记样式、线条样式、颜色设置等。通过subplot()可以实现多图绘制，满足复杂图表的需求。此外，Matplotlib还提供了图像处理功能，如imshow()imsave()和imread()，方便用户操作和处理图像数据。Seaborn是一个基于Matplotlib的Python数据可视化库，专注于绘制统计图形。

2025-08-08 18:32:49 718

原创 Matplotlib

Matplotlib是Python的一个绘图库，它允许用户轻松地将数据图形化，并支持多种输出格式。它可以用于绘制各种静态、动态和交互式的图表，如散点图、柱状图等。

2025-08-07 17:01:16 613

原创 pandas

fillna()：用指定内容替换空字段。和median()：计算列的均值和中位数替换空单元格。

2025-08-06 18:23:44 543

原创 numpy pandas

本文介绍了NumPy和Pandas两个Python数据分析库的核心功能。NumPy部分主要讲解统计函数(std,var)、排序搜索函数(sort,argsort,argmax,where)的使用方法，包括数组排序、条件查询等操作示例。Pandas部分重点介绍了Series和DataFrame两种数据结构及其创建方式，并演示了数据查询(loc)、文件读取(read_csv)、数据预览(head/info)以及缺失值处理(isnull/dropna)等常用数据操作技巧。文中通过具体代码示例展示了各功能模块的实际

2025-08-05 17:53:17 129

原创 Numpy（数组操作，函数）

本文介绍了NumPy库中常用的数组操作和函数方法。数组操作部分包括数组连接(concatenate)、堆叠(stack)、水平/垂直拼接(hstack/vstack)、分割(split/hsplit/vsplit)、大小调整(resize)、元素增删(append/insert/delete)和去重(unique)等功能。函数部分涵盖字符串处理(连接、分割、大小写转换等)、数学运算(三角函数、取整、幂运算等)和统计功能(极值、百分位数、平均值等)。这些方法为NumPy数组处理提供了全面的操作支持，适用于各种

2025-08-04 16:30:51 248

原创 numpy（广播，迭代、数组操作）

是numpy对不同形状的数组进行数值计算的方式。

2025-08-01 14:52:52 224

原创数据科学与计算numpy

这些练习涵盖了NumPy的基本操作，包括数组的创建、索引、切片、属性访问以及一些常见的数组操作。通过这些练习，可以快速掌握NumPy的基本用法，为更复杂的科学计算打下基础。NumPy是一个开源的Python科学计算库，主要用于数组和矩阵的操作，能够简化代码编写，减少循环语句的使用。N维数组，用于存放同类型元素的多维数组，以0为下标起始。创建一个长度为10的数组，值为0到1之间，不包含首尾。创建一个长度为10的0数组，第5个值为1。创建一个四边为1，中间为0的二维数组。：创建指定值填充的数组。

2025-07-31 18:56:29 537

原创数据解析Bs4

本文介绍了BeautifulSoup库的安装与使用指南。主要内容包括：1）安装命令及测试导入；2）三种解析器（html.parser、lxml、html5lib）的优缺点对比；3）基本元素（Tag、Name、Attributes等）的操作方法；4）关联选择（子节点、父节点等）；5）find_all()等方法选择器；6）CSS选择器语法。最后通过中国大学排名和百度新闻两个实战案例，演示了如何从HTML中提取结构化数据并保存为CSV文件，涵盖请求发送、数据解析和存储的完整流程。

2025-07-30 17:19:49 486

原创数据储存pyMySQL

本文介绍了PyMySQL的基本使用方法及实际应用案例。主要内容包括：1.PyMySQL操作数据库的四个核心步骤（连接、游标、执行SQL、提交事务）及常用方法；2.数据库基本操作（创建表、插入、更新、删除、查询数据）；3.两个爬虫实例：豆瓣图书信息爬取和安居客二手房数据抓取，展示了如何将爬取数据存储到MySQL数据库；4.一个电影信息爬虫任务，实现从网页抓取并存储电影数据到数据库的功能。文章通过具体代码示例，详细演示了PyMySQL与Python爬虫技术的结合应用。

2025-07-29 18:35:39 534

原创 MySQL数据库基础

本文系统介绍了MySQL数据库操作的核心语法和功能，主要包括数据操纵（INSERT、UPDATE、DELETE）、SELECT查询基础、条件查询、排序查询、聚合函数、多表合并、连接查询、子查询等关键知识点。文章详细阐述了各类查询语句的语法结构和执行顺序，并通过28个典型练习案例（基于学生、课程、教师、成绩四张表）展示了SQL在数据查询与分析中的实际应用，包括基础查询、多表连接、分组统计、条件筛选、排序处理等常见操作场景，为数据库查询操作提供了完整的参考框架。

2025-07-28 16:41:22 1044

原创 MySQL数据库（二）

本文概述了SQL数据库操作的核心语法：1)数据操纵包括INSERT(插入)、UPDATE(更新)和DELETE(删除)语句；2)SELECT查询包含基本语法、执行顺序说明；3)条件查询涵盖运算符(=,<>,LIKE等)和逻辑连接(AND,OR)；4)排序查询支持ASC/DESC排序和按字段长度排序；5)聚合函数(SUM,MAX等)和分组聚合(GROUP BY)的使用规范；6)多表合并的UNION和UNION ALL操作。全文系统性地整理了SQL常用操作要点，适用于数据库查询与管理的快速参考。

2025-07-25 18:20:11 409

原创 MYSQL数据库基础

SQL是用于与数据库交互的标准语言，是DBMS的组成部分。CREATE DATABASE (IF NOT EXISTS) 库名;CREATE TABLE (IF NOT EXISTS) 表名(属性名数据类型约束);

2025-07-24 18:06:24 465

原创静态爬取-Xpath

代码通过爬取人邮教育社区的图书页面，提取书名、链接、作者和价格信息，并将这些信息保存到 CSV 文件中，直到获取到 30 条数据为止。爬取起点中文网原创风云榜的小说信息（包括小说名称、作者、摘要和更新日期），并将这些信息保存到 CSV 文件中。通过爬取酷狗音乐华语新歌榜页面，提取歌曲名和播放链接，并将这些信息保存到 CSV 文件中。XPath是一种在XML/HTML文档中查找信息的语言，使用路径表达式来选取节点。：从当前节点选取文档中的节点，而不考虑它们的位置。用于查找特定的节点或包含特定值的节点，例如。

2025-07-23 22:30:00 611

2301_82191992的博客