
python自动化+爬虫
1
打酱油的;
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
爬虫-正则使用
Python正则表达式模块re使用技巧:1.使用r前缀避免转义;2.findall返回数组,finditer返回迭代器;3.search只匹配首个结果;4.match从开头匹配;5.推荐预编译正则表达式(pattern=re.compile())提升性能,通过obj重复调用节省内存。主要函数差异在于返回形式和匹配范围。原创 2025-07-10 21:09:17 · 923 阅读 · 0 评论 -
爬虫-正则表达式
OSCHINA.NET提供在线正则表达式测试工具,支持开发人员快速调试正则表达式。该平台还包含JSbin调试、多种编程语言API文档查询、LessCSS和MarkDown编译等实用工具,访问地址:https://tool.oschina.net/regex/。原创 2025-07-09 22:31:54 · 897 阅读 · 0 评论 -
爬虫-数据解析
Python四大HTML/XML解析工具对比:正则表达式(re)适合文本模式匹配,学习曲线陡峭但性能高;BeautifulSoup(bs4)易用容错强,适合处理破损HTML;lxml(xpath)提供精准定位和高效性能,但语法需学习;pyquery采用jQuery式CSS选择器,简洁直观但功能不如xpath全面。选择工具需根据项目需求,re适合非结构化文本,bs4适合快速开发,xpath适合复杂文档,pyquery适合熟悉jQuery的开发者。原创 2025-07-09 20:50:51 · 976 阅读 · 0 评论 -
爬虫-request处理POST
POST请求主要用于向服务器提交数据,数据通常存放在请求体(formdata)而非URL中。与GET请求通过URL参数传递数据不同,POST的数据不会暴露在地址栏,更适用于表单提交、文件上传等场景。测试时可通过data参数传入数据,服务器返回格式可能是JSON(字典)或text(字符串)。GET请求通过URL获取资源,而POST请求则通过请求体提交数据,常用于创建/更新服务器资源。原创 2025-07-08 22:45:39 · 1192 阅读 · 0 评论 -
爬虫-request处理get
GET请求是HTTP协议中最基础的请求方法,主要用于获取服务器资源而不修改数据。其特点包括:通过URL传递参数(长度受限)、可缓存、可收藏为书签,但会暴露在浏览器历史中。实际应用中,需添加请求头(如User-Agent)模拟浏览器访问,避免被网站拦截。常见请求头字段包括Host、Accept、Cookie等,用于标识客户端、控制连接和内容协商。高级字段如Cache-Control、If-Modified-Since等可实现缓存控制和条件请求。这些机制共同确保了GET请求的安全性和高效性。原创 2025-07-07 21:58:16 · 700 阅读 · 0 评论 -
爬虫-request模块使用
文章摘要:本文介绍了HTTP请求的基本使用方法。首先说明如何安装相关库和进行代码测试,重点讲解了如何打印返回内容,其中.text属性用于获取网页源代码。同时提到默认情况下会返回请求体中的标识,并建议通过设置编码参数来解决可能的乱码问题。这些操作涵盖了从安装到调试的完整流程,为开发者提供了基础的网络请求处理指南。原创 2025-07-06 23:23:55 · 862 阅读 · 0 评论 -
爬虫-协议基础
HTTP协议是客户端与服务器通信的基础规范。请求包含请求头(含请求方法、URL、验证信息等)和请求体(具体内容);响应包括状态行(协议/状态码)、响应头(Cookie等)和响应体(HTML/JSON数据)。常见状态码如200成功、404未找到。调试时可通过查看重组后的headers信息分析通信过程。原创 2025-07-06 21:40:20 · 216 阅读 · 0 评论 -
爬虫-浏览器工具简介
摘要:浏览器开发工具使用指南。推荐谷歌浏览器,主要功能包括:Element查看静态处理后的页面元素;Console执行JS代码及调试;Source查看动态网页源码;Network分析网络请求,需刷新页面获取完整请求过程,XHR筛选查看Ajax数据请求(需勾选保留请求记录),Response查看返回内容。这些工具对网页分析和JS逆向至关重要。原创 2025-07-06 21:02:55 · 880 阅读 · 0 评论 -
爬虫-web请求全过程
用户访问百度网站的流程:客户端输入baidu.com后,请求发送至百度服务器;服务器检索数据并生成HTML页面返回;浏览器解析HTML显示内容。为降低服务器负载,系统采用分布式架构处理请求。整个过程实现了从用户请求到页面展示的完整链路。原创 2025-07-05 16:10:33 · 162 阅读 · 0 评论 -
爬虫-第一个爬虫程序
浏览器里面都是html数据,拿到的都是页面源代码,可以用自己的方式打开测试。decode找charset。原创 2025-07-05 10:44:56 · 162 阅读 · 0 评论 -
python_excel 创建数据文件
【代码】python_excel 创建数据。原创 2024-02-26 11:33:55 · 192 阅读 · 0 评论 -
python面向对象
self要出现在传参列表,但是调用的时候不用传。原创 2023-10-09 11:34:27 · 124 阅读 · 0 评论 -
python excel格式化输出
注意:excel文档不能开着,保存会报错。原创 2023-04-03 00:33:22 · 393 阅读 · 0 评论 -
python Excel读写
【代码】python Excel读写。原创 2023-04-01 23:59:45 · 90 阅读 · 0 评论