【Python爬虫】爬取博主博客标题

最新推荐文章于 2024-07-04 10:53:30 发布

原创

最新推荐文章于 2024-07-04 10:53:30 发布 · 711 阅读

4 ·

CC 4.0 BY-SA版权

文章标签：

#python #爬虫

本文介绍了使用Python的requests和lxml库爬取CSDN博主文章标题的方法。通过设置headers模拟浏览器访问，利用get方法获取HTML页面，再用etree.HTML解析并使用xpath定位目标数据。数据存储时采用追加方式，编码为utf-8，过程中重点在于HTML数据的定位，对于初学者是个挑战。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

请求库：requests

解析库：lxml

目的：爬取某位CSDN博主的文章标题

import requests
from lxml import etree

url = "https://yetingyun.blog.csdn.net/article/list/1"
headers = {
   
   
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36"
}
req = requests.get(url, headers=headers