自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(27)
  • 收藏
  • 关注

原创 kmeans聚类

集成算法:把许多“弱专家”按不同策略(Bagging/Boosting/Stacking)组合起来,得到远超单个模型的强预测力。K-Means:没有标签也能把数据按“谁离谁更近”自动分成 K 堆,简单、快,但 K 值和簇形状是硬伤。

2025-08-21 12:23:45 635

原创 数据预处理

本文介绍了数据预处理的关键步骤:缺失值处理(检测、删除/填充)、数据标准化(Min-Max标准化和Z值标准化)以及特征编码(One-Hot编码、序号编码和二值化)。重点讲解了Scikit-learn库中SimpleImputer、StandardScaler等工具的使用方法,强调fit-transform流程和reshape(-1,1)的形状调整技巧。通过清洗(缺失值处理)、缩放(标准化)和编码(特征转换)的三步预处理流程,可有效提升机器学习模型的性能。文中还演示了数据切分、二值化阈值设置等具体操作示例。

2025-08-20 14:46:36 373

原创 决策树8.19

决策树算法比较与实现分析:本文系统介绍了ID3、C4.5和CART三种决策树算法,重点对比了它们的分裂标准(信息增益、信息增益率和基尼系数)及适用场景。通过泰坦尼克号数据集预测实例,详细阐述了数据预处理、模型训练与评估全过程,包括缺失值处理、离散特征转换及网格搜索调参。实验结果显示最优模型准确率达82%,但存在过拟合现象。文章强调决策树需通过剪枝策略(预剪枝和后剪枝)平衡模型复杂度,并指出特征工程对模型性能的关键影响,为决策树应用提供了实践指导。

2025-08-19 13:49:31 486

原创 8.18决策树

决策树是一种用于分类和回归的树形模型,通过特征选择和节点分割进行决策。其核心在于利用信息增益选择最优特征作为节点,以熵来衡量分类纯度。训练时递归选择信息增益最大的特征构建树,测试时遍历树得到结果。文中以"是否打球"为例,演示了如何计算初始熵、条件熵和信息增益,并强调加权计算的重要性。课堂练习通过"浮出水面"和"脚蹼"特征进一步巩固了特征选择方法。决策树通过层层特征选择,逐步降低不确定性,最终实现有效分类。

2025-08-18 16:24:30 990

原创 KNN 算法

摘要: KNN算法通过计算新数据与训练集的最近邻距离进行分类(K表示邻居数量)。核心步骤包括:距离计算(欧式/曼哈顿距离)、排序取前K个邻居、多数表决分类。关键点:K值需合理选择(通常<20),特征需标准化。以鸢尾花数据集为例,代码实现包括数据划分、模型训练(KNeighborsClassifier)及评估(准确率、预测)。注意事项:KNN适用于分类/回归,测试集不可参与训练。

2025-08-15 14:38:56 314

原创 机器学习概述(一)

机器学习是通过分析数据优化任务效果的技术,广泛应用于图像识别、医疗诊断等领域。核心概念包括数据集、特征向量、监督/无监督学习等。模型需平衡欠拟合(模型简单)和过拟合(模型复杂),可通过交叉验证等方法评估。评估指标如查准率、查全率等帮助判断模型性能。奥卡姆剃刀原理指出应选择简单有效的模型。本文系统介绍了机器学习的基础知识、常见问题及解决方案,为入门者提供了全面的学习框架。

2025-08-14 16:17:40 929

原创 数据分析—双十一

首先识别数据中各列的数据类型,并计算统计量,包括标准差、最小值、最大值、四分位数等,为后续分析提供基础数据支持。检测到数据中共有86条重复记录,将其删除后重置行索引,数据量从27598条减少至27512条,确保数据的唯一性。发现“销售数量”和“评论数量”两列存在缺失值。经过分析后,决定用零填充这些空值,以保证数据的完整性。

2025-08-12 16:35:09 1326

原创 实践811

该程序实现了从网页抓取赤峰市月度气象数据并进行分析处理的功能。主要包含三个核心函数:get_html()通过requests库获取网页内容,parse_table()使用BeautifulSoup和正则表达式提取气温等表格数据,save_csv()将数据存储为CSV文件。程序还提供了数据处理功能,包括删除含零行、替换空值(均值/中位数)以及生成多种可视化图表(柱状图、饼图等)来展示空气质量指数。整个流程实现了从数据采集、清洗到分析可视化的完整闭环。

2025-08-11 18:15:18 558

原创 matplotlib seaborn

Matplotlib是Python中功能强大的绘图库,广泛应用于数据可视化。它支持多种图表类型,包括散点图、柱形图、饼图、直方图等,并提供了丰富的自定义选项,如标记样式、线条样式、颜色设置等。通过subplot()可以实现多图绘制,满足复杂图表的需求。此外,Matplotlib还提供了图像处理功能,如imshow()imsave()和imread(),方便用户操作和处理图像数据。Seaborn是一个基于Matplotlib的Python数据可视化库,专注于绘制统计图形。

2025-08-08 18:32:49 718

原创 Matplotlib

Matplotlib是Python的一个绘图库,它允许用户轻松地将数据图形化,并支持多种输出格式。它可以用于绘制各种静态、动态和交互式的图表,如散点图、柱状图等。

2025-08-07 17:01:16 613

原创 pandas

fillna():用指定内容替换空字段。和median():计算列的均值和中位数替换空单元格。

2025-08-06 18:23:44 543

原创 numpy pandas

本文介绍了NumPy和Pandas两个Python数据分析库的核心功能。NumPy部分主要讲解统计函数(std,var)、排序搜索函数(sort,argsort,argmax,where)的使用方法,包括数组排序、条件查询等操作示例。Pandas部分重点介绍了Series和DataFrame两种数据结构及其创建方式,并演示了数据查询(loc)、文件读取(read_csv)、数据预览(head/info)以及缺失值处理(isnull/dropna)等常用数据操作技巧。文中通过具体代码示例展示了各功能模块的实际

2025-08-05 17:53:17 129

原创 Numpy(数组操作,函数)

本文介绍了NumPy库中常用的数组操作和函数方法。数组操作部分包括数组连接(concatenate)、堆叠(stack)、水平/垂直拼接(hstack/vstack)、分割(split/hsplit/vsplit)、大小调整(resize)、元素增删(append/insert/delete)和去重(unique)等功能。函数部分涵盖字符串处理(连接、分割、大小写转换等)、数学运算(三角函数、取整、幂运算等)和统计功能(极值、百分位数、平均值等)。这些方法为NumPy数组处理提供了全面的操作支持,适用于各种

2025-08-04 16:30:51 248

原创 numpy(广播,迭代、数组操作)

是numpy对不同形状的数组进行数值计算的方式。

2025-08-01 14:52:52 224

原创 数据科学与计算numpy

这些练习涵盖了NumPy的基本操作,包括数组的创建、索引、切片、属性访问以及一些常见的数组操作。通过这些练习,可以快速掌握NumPy的基本用法,为更复杂的科学计算打下基础。NumPy是一个开源的Python科学计算库,主要用于数组和矩阵的操作,能够简化代码编写,减少循环语句的使用。N维数组,用于存放同类型元素的多维数组,以0为下标起始。创建一个长度为10的数组,值为0到1之间,不包含首尾。创建一个长度为10的0数组,第5个值为1。创建一个四边为1,中间为0的二维数组。:创建指定值填充的数组。

2025-07-31 18:56:29 537

原创 数据解析Bs4

本文介绍了BeautifulSoup库的安装与使用指南。主要内容包括:1)安装命令及测试导入;2)三种解析器(html.parser、lxml、html5lib)的优缺点对比;3)基本元素(Tag、Name、Attributes等)的操作方法;4)关联选择(子节点、父节点等);5)find_all()等方法选择器;6)CSS选择器语法。最后通过中国大学排名和百度新闻两个实战案例,演示了如何从HTML中提取结构化数据并保存为CSV文件,涵盖请求发送、数据解析和存储的完整流程。

2025-07-30 17:19:49 486

原创 数据储存pyMySQL

本文介绍了PyMySQL的基本使用方法及实际应用案例。主要内容包括:1.PyMySQL操作数据库的四个核心步骤(连接、游标、执行SQL、提交事务)及常用方法;2.数据库基本操作(创建表、插入、更新、删除、查询数据);3.两个爬虫实例:豆瓣图书信息爬取和安居客二手房数据抓取,展示了如何将爬取数据存储到MySQL数据库;4.一个电影信息爬虫任务,实现从网页抓取并存储电影数据到数据库的功能。文章通过具体代码示例,详细演示了PyMySQL与Python爬虫技术的结合应用。

2025-07-29 18:35:39 534

原创 MySQL数据库基础

本文系统介绍了MySQL数据库操作的核心语法和功能,主要包括数据操纵(INSERT、UPDATE、DELETE)、SELECT查询基础、条件查询、排序查询、聚合函数、多表合并、连接查询、子查询等关键知识点。文章详细阐述了各类查询语句的语法结构和执行顺序,并通过28个典型练习案例(基于学生、课程、教师、成绩四张表)展示了SQL在数据查询与分析中的实际应用,包括基础查询、多表连接、分组统计、条件筛选、排序处理等常见操作场景,为数据库查询操作提供了完整的参考框架。

2025-07-28 16:41:22 1044

原创 MySQL数据库(二)

本文概述了SQL数据库操作的核心语法:1)数据操纵包括INSERT(插入)、UPDATE(更新)和DELETE(删除)语句;2)SELECT查询包含基本语法、执行顺序说明;3)条件查询涵盖运算符(=,<>,LIKE等)和逻辑连接(AND,OR);4)排序查询支持ASC/DESC排序和按字段长度排序;5)聚合函数(SUM,MAX等)和分组聚合(GROUP BY)的使用规范;6)多表合并的UNION和UNION ALL操作。全文系统性地整理了SQL常用操作要点,适用于数据库查询与管理的快速参考。

2025-07-25 18:20:11 409

原创 MYSQL数据库基础

SQL是用于与数据库交互的标准语言,是DBMS的组成部分。CREATE DATABASE (IF NOT EXISTS) 库名;CREATE TABLE (IF NOT EXISTS) 表名(属性名 数据类型 约束);

2025-07-24 18:06:24 465

原创 静态爬取-Xpath

代码通过爬取人邮教育社区的图书页面,提取书名、链接、作者和价格信息,并将这些信息保存到 CSV 文件中,直到获取到 30 条数据为止。爬取起点中文网原创风云榜的小说信息(包括小说名称、作者、摘要和更新日期),并将这些信息保存到 CSV 文件中。通过爬取酷狗音乐华语新歌榜页面,提取歌曲名和播放链接,并将这些信息保存到 CSV 文件中。XPath是一种在XML/HTML文档中查找信息的语言,使用路径表达式来选取节点。:从当前节点选取文档中的节点,而不考虑它们的位置。用于查找特定的节点或包含特定值的节点,例如。

2025-07-23 22:30:00 611

原创 JavaScript和静态网页爬取-数据储存

本文介绍了JavaScript基础知识和网页爬取数据存储技术。JavaScript部分包括其发展历史、语言特点、添加方式、语法规则、变量类型、函数定义和流程控制等核心概念。数据存储部分讲解了Robots协议规范以及TXT、CSV等文件的存储操作,重点介绍了Python处理这些文件的方法。最后通过一个电影推荐网页案例,详细分析了其页面结构、样式特点和功能实现,展示了如何运用JavaScript实现表单提交、数据保存和电影推荐等交互功能。全文涵盖了前端开发和数据爬取存储的基础知识和技术要点。

2025-07-22 22:45:00 1542

原创 html和css

本文介绍了HTML和CSS的基础知识。HTML部分包括网页创建、常用实体符号、div/span标记、列表、超链接、图片插入、表格和表单制作。CSS部分涵盖样式表定义、三种引入方式、基础语法、颜色表示、注释方法、元素分类以及字体、文本、表格和背景等常见属性。最后提供了一个电影推荐页面的制作实例,展示了表单设计和个人信息收集功能,提交后将跳转至爱奇艺电影页面。

2025-07-21 19:06:57 897

原创 HTML开发基础(一)

HTML是用于描述网页的标记语言,支持多媒体内容和超链接。其基本语法包括双标签(如<html>)和单标签(如<br/>)。常用标记有标题(<h1>-<h6>)、段落(<p>)、换行(<br>)、水平线(<hr>)等,可设置对齐方式、颜色等属性。文字修饰包括粗体、斜体、上下标等效果,字体属性可定义字形、大小和颜色。特殊符号需使用实体符号表示,如 表示空格,<表示小于号等。

2025-07-18 17:00:43 182

原创 Requests实现模拟登录

利用Session方法登录网站 Session会话对象在多次请求之间保持Cookies,方便模拟登录。如果不包含,则创建一个新的Session并生成Session Id。通过Cookies保持登录状态,爬虫可以利用已登录的Cookies访问网站的深层页面。利用Cookie直接登录 直接在请求中添加已登录的Cookies。自动处理Cookies,方便处理登录时保存的Cookies问题。使用个人账号登录豆瓣网站,爬取登录后的个人主页信息。使用开发者工具查看网络请求,找到登录请求的URL。

2025-07-18 16:04:31 837

原创 静态网页爬取

本文介绍了Requests库的基本用法,重点解析了Get和Post请求方法。Get请求常用于数据查看,Post多用于模拟登录等场景。文章详细说明了请求参数配置、响应对象属性获取及编码处理方式,并通过三个案例演示了实际应用:QQ表情包下载通过拼接URL获取图片,手机号查询通过参数构造Get请求,图片下载展示二进制内容保存。案例代码均包含异常处理和文件存储逻辑,展示了Requests库在网络爬虫和数据采集中的典型应用场景。

2025-07-17 15:37:09 744

原创 爬虫概述及静态网页爬取模块

定义:按既定规则自动抓取万维网信息的程序/脚本,又称 Spider、Crawler、Bot。带偏好/最佳优先:用优先级队列,按“链接欢迎度、重要度、深度”打分,先抓最“值钱”的页面。CSS 选择器:#id、.class、element、属性、伪类等,用来定位节点。状态码:2xx 成功,3xx 重定向,4xx 请求错误,5xx 服务器错误。广度优先(BFS):按层扩散,先近后远,利于发现“重要”页面,适合多机协同。请求方法:GET、POST、HEAD、PUT、DELETE…

2025-07-16 14:51:26 1017 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除