爬虫实战+数据分析：全国消费支出分析及未来预测+代码分享

最新推荐文章于 2025-03-17 08:59:09 发布

稀稀落落987

最新推荐文章于 2025-03-17 08:59:09 发布

阅读量955

点赞数 7

CC 4.0 BY-SA版权

文章标签： python

本文链接：https://blog.csdn.net/zhangjianfzf/article/details/138077802

本文使用Python进行全国消费数据的爬取，从国家数据统计局获取数据并保存。拿到数据后，利用Pandas库进行清洗处理，用Matplotlib库可视化。还利用近10年数据，通过ARIMA模型进行未来两年消费预测。强调爬虫是为数据分析服务，且操作要遵守法律法规。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在本篇文章中，爬虫的讲解不仅仅局限于爬虫本身，还会引申至另一个重要领域：数据分析。对我们而言，爬虫的核心价值实际上在于获取数据，一旦获得了数据，接下来必然是要加以利用。数据分析便是其中关键一环，因此在爬虫的讲解之后，我们将会稍作涉及与数据分析相关的知识要点。

今天主要任务是爬取全国消费数据，然后根据过去十年的数据进行深入分析，以便进行未来两年的消费预测。废话不多说，让我们直接开始吧。

全国消费数据

要获取全国的消费数据，最好前往国家数据统计局进行查询。因此，在使用爬虫时，应当谨慎操作，避免对服务器造成负荷过大的影响。在成功获取数据后，应当及时保存，而不是过度频繁地请求数据，以免导致服务器瘫痪。在开始分析页面之前，先确认所需的全国消费数据是否已被提供，然后按照常规操作，在页面下方进行搜索，以确定数据展示形式是静态页面还是通过ajax请求获取的。

为什么在这里我搜索的是数字而非文字？这是因为该请求返回到浏览器时处于乱码状态，因此为了演示，我选择了数字作为示例，效果是一样的。一旦找到请求，处理起来就很简单了，我们只需复制URL，前往在线网站进行处理，然后将代码复制出来即可。如果在线网站有不清楚的地方，可以参考前几章的文章。

数据抓取

直接看下爬虫代码：

import requests
import re

strdata_code_map = {}
wdcode_name_map = {}
def get_data():
    global strdata_code_map,wdcode_name_map
    headers = {
        'Accept': 'application/json, text/javascript, */*; q=0.01',
        'Accept-Language': 'zh-CN,zh;q=0.9,en;q=0.8,en-GB;q=0.7,en-US;q=0.6',
        'Connection': 'keep-alive',
        'Cookie': 'wzws_sessionid=oGX46GqAMTIzLjE3Mi40OS4yMDKBZDk0YTI3gmZjNWVlMQ==; u=6; experience=show; JSESSIONID=bANUmkmAc_F_FOy-dM-8VqxHEea-dpa39By6stbh14v9_aYXN7HM!1314454129',
        'Referer': 'https://data.stats.gov.cn/easyquery.htm?cn=C01',
        'Sec-Fetch-Dest': 'empty',
        'Sec-Fetch-Mode': 'cors',
        'Sec-Fetch-Site': 'same-origin',
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/122.0.0.0 Safari/537.36 Edg/122.0.0.0',
        'X-Requested-With': 'XMLHttpRequest',
        'sec-ch-ua': '"Chromium";v="122", "Not(A:Brand";v="24", "Microsoft Edge";v="122"',
        'sec-ch-ua-mobile': '?0',
        'sec-ch-ua-platform': '"Windows"',
    }

    params = {
        'm': 'QueryData',
        'dbcode': 'hgnd',
        'rowcode': 'zb',
        'colcode': 'sj',
        'wds': '[]',
        'dfwds': '[{"wdcode":"zb","valuecode":"A0A04"}]',
        'k1': '1710816989823',
        'h': '1',
    }

    response = requests.get('https://data.stats.gov.cn/easyquery.htm', params=params,