Python 爬虫编码问题

当Python爬虫在请求时包含Accept-Encoding头信息,如gzip,deflate,br,可能会导致返回数据被压缩但未解压,从而出现乱码。去除或注释掉该头信息,可以确保数据正确解码并避免乱码问题。浏览器通常能自动处理压缩数据,但自定义爬虫需手动处理这一过程。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Python 爬虫编码问题

今天本来想写个小爬虫,在返回数据页面时发现全是乱码,尝试使用两种常用的解决编码问题的方式

response.encoding = 'utf-8'  # 根据网页编码进行更改
response.encoding = response.apparent_encoding

发现还是不行,于是尝试不带 headers 访问,结果不乱码了;问题出在 headers 头里
一条一条进行删除测试 终于发现问题的源头

accept-encoding": “gzip, deflate, br”

就是这个东西
将这个东西进行删除或者注释,返回的数据就正常了

在这里插入图片描述
后来百度了一波,发现网上对这个东西解释

普通浏览器访问网页,之所以添加"Accept-Encoding" = “gzip,deflate,br”,那是因为,浏览器对于从服务器中返回的对应的gzip压缩的网页,会自动解压缩,所以,其request的时候,添加对应的头,表明自己接受压缩后的数据。
而在我们编写的代码中,如果也添加此头信息,结果就是,返回的压缩后的数据,没有解码,而将压缩后的数据当做普通的html文本来处理,当前显示出来的内容就是乱码了。

详细说明:https://www.cnblogs.com/RainLa/p/8057367.html

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值