- 博客(310)
- 资源 (14)
- 问答 (1)
- 收藏
- 关注
原创 爬虫-正则使用
Python正则表达式模块re使用技巧:1.使用r前缀避免转义;2.findall返回数组,finditer返回迭代器;3.search只匹配首个结果;4.match从开头匹配;5.推荐预编译正则表达式(pattern=re.compile())提升性能,通过obj重复调用节省内存。主要函数差异在于返回形式和匹配范围。
2025-07-10 21:09:17
647
原创 爬虫-正则表达式
OSCHINA.NET提供在线正则表达式测试工具,支持开发人员快速调试正则表达式。该平台还包含JSbin调试、多种编程语言API文档查询、LessCSS和MarkDown编译等实用工具,访问地址:https://tool.oschina.net/regex/。
2025-07-09 22:31:54
650
原创 爬虫-数据解析
Python四大HTML/XML解析工具对比:正则表达式(re)适合文本模式匹配,学习曲线陡峭但性能高;BeautifulSoup(bs4)易用容错强,适合处理破损HTML;lxml(xpath)提供精准定位和高效性能,但语法需学习;pyquery采用jQuery式CSS选择器,简洁直观但功能不如xpath全面。选择工具需根据项目需求,re适合非结构化文本,bs4适合快速开发,xpath适合复杂文档,pyquery适合熟悉jQuery的开发者。
2025-07-09 20:50:51
735
原创 爬虫-request处理POST
POST请求主要用于向服务器提交数据,数据通常存放在请求体(formdata)而非URL中。与GET请求通过URL参数传递数据不同,POST的数据不会暴露在地址栏,更适用于表单提交、文件上传等场景。测试时可通过data参数传入数据,服务器返回格式可能是JSON(字典)或text(字符串)。GET请求通过URL获取资源,而POST请求则通过请求体提交数据,常用于创建/更新服务器资源。
2025-07-08 22:45:39
973
原创 爬虫-request处理get
GET请求是HTTP协议中最基础的请求方法,主要用于获取服务器资源而不修改数据。其特点包括:通过URL传递参数(长度受限)、可缓存、可收藏为书签,但会暴露在浏览器历史中。实际应用中,需添加请求头(如User-Agent)模拟浏览器访问,避免被网站拦截。常见请求头字段包括Host、Accept、Cookie等,用于标识客户端、控制连接和内容协商。高级字段如Cache-Control、If-Modified-Since等可实现缓存控制和条件请求。这些机制共同确保了GET请求的安全性和高效性。
2025-07-07 21:58:16
493
原创 爬虫-request模块使用
文章摘要:本文介绍了HTTP请求的基本使用方法。首先说明如何安装相关库和进行代码测试,重点讲解了如何打印返回内容,其中.text属性用于获取网页源代码。同时提到默认情况下会返回请求体中的标识,并建议通过设置编码参数来解决可能的乱码问题。这些操作涵盖了从安装到调试的完整流程,为开发者提供了基础的网络请求处理指南。
2025-07-06 23:23:55
676
原创 爬虫-协议基础
HTTP协议是客户端与服务器通信的基础规范。请求包含请求头(含请求方法、URL、验证信息等)和请求体(具体内容);响应包括状态行(协议/状态码)、响应头(Cookie等)和响应体(HTML/JSON数据)。常见状态码如200成功、404未找到。调试时可通过查看重组后的headers信息分析通信过程。
2025-07-06 21:40:20
206
原创 爬虫-浏览器工具简介
摘要:浏览器开发工具使用指南。推荐谷歌浏览器,主要功能包括:Element查看静态处理后的页面元素;Console执行JS代码及调试;Source查看动态网页源码;Network分析网络请求,需刷新页面获取完整请求过程,XHR筛选查看Ajax数据请求(需勾选保留请求记录),Response查看返回内容。这些工具对网页分析和JS逆向至关重要。
2025-07-06 21:02:55
719
原创 爬虫-web请求全过程
用户访问百度网站的流程:客户端输入baidu.com后,请求发送至百度服务器;服务器检索数据并生成HTML页面返回;浏览器解析HTML显示内容。为降低服务器负载,系统采用分布式架构处理请求。整个过程实现了从用户请求到页面展示的完整链路。
2025-07-05 16:10:33
158
原创 sql总结
row_number 从1到10顺序排名, rank()11335并列的算一名 DENSE_RANK是1122333排,rank是11335下级写法,嵌套查询,可以代码简化。
2024-08-19 23:54:34
675
1
原创 layui-表格
加上table标签 加上class=layui-tablecolgroup是列属性 tr是行td是列 thead是表头,后面一一对应。
2024-07-04 00:08:56
487
原创 事件绑定-回调函数
使用setData+count:这种方式直接使用this.data.count 错误示范:传递方式:数值用{{}},直接引号默认就是字符串接受方式:传递的值用e.target.dataset.xxx 接收
2023-11-08 23:20:27
270
原创 PG通用表表达式查询with
使用CTE的主要好处包括:提高复杂查询的可读性。CTE可以将复杂查询模块化,组织成容易理解的结构。CTE通过引用自身实现递归,可以方便地处理层次结构数据和图数据。with 表名(列名) as(select 内容)
2023-10-26 10:01:08
355
原创 PG集合查询
union distinct连接并且去重 all不去重。distinct连接并且去重 all不去重。distinc去重 all不去重。
2023-10-18 23:36:24
227
ltp 中failed项原因分析
2022-02-18
TA创建的收藏夹 TA关注的收藏夹
TA关注的人