八行代码爬取豆瓣TOP250（一）

最新推荐文章于 2024-07-20 23:07:14 发布

原创最新推荐文章于 2024-07-20 23:07:14 发布 · 242 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#python #html #java #web #爬虫

python 同时被 2 个专栏收录

14 篇文章

订阅专栏

爬虫

7 篇文章

订阅专栏

本文展示了使用Python的requests和BeautifulSoup库仅用8行代码抓取豆瓣电影Top250电影名称的过程。通过设置headers获取网页内容，解析HTML并找到包含电影名的元素，然后循环遍历输出。爬取结果可保存为文本、CSV或SQL文件。后续博客将探讨如何获取更多电影信息。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

八行代码爬取豆瓣TOP250

这里使用了bs4库，解析html非常好用，此处为展示它的快速强大，借用下例说明，仅用8行代码便爬取到了top250的电影名字

import requests
from bs4 import BeautifulSoup

headers = {#此处填写cookie，User-agent
}
for i in range(25):
	#html通过request请求得到,().text将()转化成文本
    html= requests.get(
        'https://movie.douban.com/top250?start='+str(i*25), headers=headers).text
    soup = BeautifulSoup(html, 'html.parser')#解析html,建议首先搜索资料了解一下
    items = soup.find_all('div', class_='item')#比对网页源代码加以理解,此处的'div'表示一个容器,find_all找到符合条件的所有信息,相信聪明的你们会很快入门这个函数

    for item in items:
        moviename = item.find('span', class_='title').text
        print(moviename)