网络爬虫基础

最新推荐文章于 2025-07-28 09:27:15 发布

玉素普江2123

最新推荐文章于 2025-07-28 09:27:15 发布

阅读量867

点赞数 11

CC 4.0 BY-SA版权

文章标签：爬虫

本文链接：https://blog.csdn.net/yusupali19/article/details/148627842

一、网络爬虫的定义

网络爬虫（Web Crawler），又称为网络蜘蛛、网络机器人等，是一种按照一定规则自动抓取互联网信息的程序或脚本。它通过模拟浏览器的行为，发送HTTP请求获取网页内容，并从中提取有用信息。网络爬虫广泛应用于搜索引擎、大数据分析、学术研究等领域，是互联网信息采集的重要工具。

二、网络爬虫的类型

网络爬虫主要分为通用网络爬虫和定向网络爬虫两大类。

（一）通用网络爬虫

通用网络爬虫，又称全网爬虫，旨在从互联网上尽可能多地抓取网页信息，覆盖各种类型和主题的网站。其特点包括：

1. 覆盖范围广：不局限于特定领域，目标是构建全面的网页索引。

2. 遵循规则：通常遵循robots.txt协议，尊重网站的抓取规则。

3. 并行工作：由于数据量巨大，通常采用并行爬取的方式。

通用网络爬虫的实现原理主要包括以下几个模块：

• 初始URL集合：作为爬取的起点。

• URL队列：存储待爬取的网页链接。

• 页面爬行模块：通过HTTP请求获取网页内容。

• 页面分析模块：解析网页，提取其中的链接和内容。

• 页面数据库：存储爬取到的网页。

• 链接过滤模块：避免重复抓取相同的网页。

通用网络爬虫通常采用深度优先或广度优先的搜索策略。

（二）定向网络爬虫

定向网络爬虫，又称聚焦网络爬虫或主题网络爬虫，是有选择地抓取与特定主题相关的网页。其特点包括：

1. 目标明确：专注于特定领域或主题，如科技新闻、医学研究等。

2. 节省资源：由于目标明确，不需要遍历整个互联网，因此在存储和计算资源的消耗上相对较少。

定向网络爬虫的实现原理与通用网络爬虫类似，但增加了内容评价和链接评价模块。其核心在于通过特定的策略和算法选择要抓取的网页，通常会使用机器学习或自然语言处理技术来判断网页内容是否符合预定主题。

二、网络爬虫的基本原理

网络爬虫的工作流程大致可分为以下几个步骤：

发起请求：爬虫向目标网站的服务器发送 HTTP 请求，请求获取网页内容。

获取响应：服务器接收到请求后，返回包含网页数据的响应，通常是 HTML、JSON 等格式。

解析内容：爬虫对获取到的响应内容进行解析，提取出我们需要的数据。

存储数据：将提取到的数据存储到本地文件或数据库中，以便后续分析和使用。

二、网络爬虫实战代码

以 Python 语言为例，使用requests库和BeautifulSoup库实现一个简单的网络爬虫，抓取网页中的标题和段落内容。

2.1 安装所需库

在开始编写代码前，需要安装requests和BeautifulSoup库。打开命令行，执行以下命令：

pip install requests beautifulsoup4

2.2 编写爬虫代码

import requests
from bs4 import BeautifulSoup

# 目标网址
url = "https://example.com"
# 发送HTTP请求
response = requests.get(url)

# 判断请求是否成功
if response.status_code == 200:
    # 使用BeautifulSoup解析网页
    soup = BeautifulSoup(response.text, 'html.parser')
    # 提取标题
    title = soup.title.text
    print(f"网页标题: {title}")
    # 提取段落内容
    paragraphs = soup.find_all('p')
    for para in paragraphs:
        print(para.text)
else:
    print(f"请求失败，状态码: {response.status_code}")

上述代码首先发送 HTTP 请求获取网页内容，然后使用BeautifulSoup解析网页，提取标题和段落数据并打印。

三简单的爬虫实战豆瓣电影Top250

（一）显示影片基本信息

访问豆瓣电影Top250（豆瓣电影 Top 250），获取每部电影的中文片名、排名、评分及其对应的链接，按照“排名-中文片名-评分-链接”的格式显示在屏幕上。


import requests
from  bs4 import  BeautifulSoup
headers={
    "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/117.0.0.0 Safari/537.36 Edg/117.0.245.60"
}#需要改成自己的
url='https://movie.douban.com/top250?start=0'
 
def get_info(url):# 发送HTTP请求，并获取响应内容
    response = requests.get(url, headers=headers)
    # 使用BeautifulSoup解析HTML内容
    soup = BeautifulSoup(response.text, 'html.parser')
    # 找到页面中所有class属性为item的div标签
    item_list = soup.find_all('div', attrs={"class": "item"})
    results=[]
    for item in item_list:
        # 获取排行
        rank = item.find('div', attrs={'class': 'pic'}).find('em').text
        # 获取电影名称
        title = item.find('div', attrs={'class': 'hd'}).find('span', {'class': 'title'}).text
        # 获取评分
        rating_num = item.find('div', {'class': 'star'}).find('span', {'class': 'rating_num'}).text
        # 获取连接
        link = item.find('div', {'class': 'hd'}).find('a')['href']
        print(f'{rank}-{title}-{rating_num}-{link}

二）存储影片详细信息

访问豆瓣电影Top250（豆瓣电影 Top 250），在问题1的基础上，获取每部电影的导演、编剧、主演、类型、上映时间、片长、评分人数以及剧情简

介等信息，并将获取到的信息保存至本地文件中。

直接在原来的代码上修改

import time
import csv
import requests
from  bs4 import  BeautifulSoup
import re
 
headers={
    "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/117.0.0.0 Safari/537.36 Edg/117.0.245.60"
}#需要改成自己的
def get_info(url):# 发送HTTP请求，并获取响应内容
    response = requests.get(url, headers=headers)
    # 使用BeautifulSoup解析HTML内容
    soup = BeautifulSoup(response.text, 'html.parser')
    # 找到页面中所有class属性为item的div标签
    item_list = soup.find_all('div', attrs={"class": "item"})
    results=[]
    for item in item_list:
        # 获取排行
        rank = item.find('div', attrs={'class': 'pic'}).find('em').text
        # 获取电影名称
        title = item.find('div', attrs={'class': 'hd'}).find('span', {'class': 'title'}).text
        # 获取评分
        rating_num = item.find('div', {'class': 'star'}).find('span', {'class': 'rating_num'}).text
        # 获取连接
        link = item.find('div', {'class': 'hd'}).find('a')['href']
 
        # 解析电影详细页面
        detail_response=requests.get(link,headers=headers)
        detail_soup=BeautifulSoup(detail_response.content,'html.parser')
        # 获取电影详细信息的区域
        info_block = detail_soup.find('div', {'id': 'info'})
        if info_block:
            # 获取电影信息的文本内容
            info_text = info_block.get_text('\n', strip=True)
 
            # 初始化各个电影详细信息变量
 
            cast = ''
            genre = ''
 
            duration = ''
            votes = ''
            summary = ''
 
            director_span = info_block.find('span', text='导演')
            if director_span:
                director_links = director_span.parent.find_all('a')
                directors = [link.text.strip() for link in director_links]
                director = '/'.join(directors)
            else:
                director = ''
 
            # 提取编剧信息
            writer_span = info_block.find('span', text='编剧')
            if writer_span:
                writer_links = writer_span.parent.find_all('a')
                writers = [link.text.strip() for link in writer_links]
                writer = '/'.join(writers)
            else:
                writer = ''
 
            # 提取主演信息
            cast_block = info_block.find('span', {'class': 'actor'})
            if cast_block:
                cast = cast_block.get_text(strip=True)
            cast = cast[len('主演:'):]  # 删除开头的"主演:"
 
            # 提取类型信息
            genre_block = detail_soup.find_all('span', {'property': 'v:genre'})
            if genre_block:
                genre = '/'.join([x.get_text(strip=True) for x in genre_block])
 
            # 提取上映日期信息
            release_dates = info_block.find(attrs={'property': 'v:initialReleaseDate'})['content']
 
            # 提取片长信息
            duration_block = info_block.find('span', {'property': 'v:runtime'})
            if duration_block:
                duration = duration_block.get_text(strip=True)
 
            # 提取评分人数信息
            votes_block = detail_soup.find('span', {'property': 'v:votes'})
            if votes_block:
                votes = votes_block.get_text(strip=True)
            # 获取电影简介
            summary_block = detail_soup.find('span', {'property': 'v:summary'})
            if summary_block:
                summary = summary_block.get_text(strip=True)
            results.append(
                [rank, title, rating_num, link, director, writer, cast, genre, release_dates, duration, votes, summary])
    return results
 
output_file='D:\\pyCourse\\dataCollect\\movie_top250.csv'#设置成自己想存的地址
urls = ['https://movie.douban.com/top250?start={}'.format(str(i)) for i in range(0, 226, 25)]
try:
    with open(output_file,'w',encoding='utf-8',newline='') as f:
        # 创建csv.writer对象
        writer=csv.writer(f)
 
        column_names=['排名', '电影名称', '评分','链接', '导演', '编剧', '主演', '类型', '上映日期', '片长', '评分人数', '剧情简介']
        writer.writerow(column_names)
        for url in urls:
            movies=get_info(url)
            for movie in movies:
                writer.writerow(movie)#将爬取到的内容写入表中
            print('网页'+url+'已爬取')
            time.sleep(0.5)
        # 输出完成信息
    print('电影信息已保存至文件：', output_file)
except Exception as e:
    print('写入文件出错：', str(e))