python爬网站数据实例-Python爬虫实例_城市公交网络站点数据的爬取方法

最新推荐文章于 2023-03-12 16:39:39 发布

weixin_37988176

最新推荐文章于 2023-03-12 16:39:39 发布

阅读量811

点赞数

本文介绍如何使用Python爬虫从8684网站抓取北京公交线路的详细信息，包括线路名、类型、运行时间、票价、公交公司等，并解析上行、下行站点。通过示例代码展示了完整的爬取流程，最终将数据保存到txt文件。

爬取的站点：http://beijing.8684.cn/

（1）环境配置，直接上代码：

# -*- coding: utf-8 -*-

import requests ##导入requests

from bs4 import BeautifulSoup ##导入bs4中的BeautifulSoup

import os

headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.221 Safari/537.36 SE 2.X MetaSr 1.0'}

all_url = 'http://beijing.8684.cn' ##开始的URL地址

start_html = requests.get(all_url, headers=headers)

#print (start_html.text)

Soup = BeautifulSoup(start_html.text, 'lxml') # 以lxml的方式解析html文档

（2）爬取站点分析

1、北京市公交线路分类方式有3种：

本文通过数字开头来进行爬取，"F12”启动开发者工具，点击"Elements”,点击"1”，可以发现链接保存在

里面，故只需要提取出div里的href即可：

代码：

all_a = Soup.find("div',class_='bus_kt_r1').find_all("a')

2、接着往下，发现每1路的链接都在

的里面，取出里面的herf即为线路网址，其内容即为线路名称，代码：

href = a['href'] #取出a标签的href 属性

html = all_url + href

second_html = requests.get(html,headers=headers)

#print (second_html.text)

Soup2 = BeautifulSoup(second_html.text, 'lxml')

all_a2 = Soup2.find('div',class_='cc_content').find_all('div')[-1].find_all('a')

最低0.47元/天解锁文章

200万优质内容无限畅学

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_37988176

关注关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

超强干货之---Python-数据爬取（爬虫）

房东的猫的博客

07-12

5万+

定义：深度优先搜索是一种遍历或搜索树或图的算法，从起始节点开始，一直沿着一个分支走到底，再回溯到上一个节点继续搜索下一个分支，直到遍历完所有节点。特点递归：通常用递归实现，或者使用栈来模拟递归过程。内存占用低：在有大量分支的情况下，内存占用比广度优先搜索低。适合目标较深的情况：如果目标节点距离起始节点较深，DFS能更快找到目标。适用场景需要遍历所有节点的情况，如生成树、迷宫搜索。目标节点较深，且分支较多时。在大规模数据爬取时，选择合适的存储方式取决于数据的规模、结构和访问需求。

利用python爬取城市公交站点

Python_xiaowu的博客

12-09

1195

利用python爬取城市公交站点页面分析 https://guiyang.8684.cn/line1 爬虫我们利用requests请求，利用BeautifulSoup来解析，获取我们的站点数据。得到我们的公交站点以后，我们利用高德api来获取站点的经纬度坐标，利用pandas解析json文件。接下来开干，我推荐使用面向对象的方法来写代码。 import requests import json from bs4 import BeautifulSoup import pandas

参与评论您还未登录，请先登录后发表或查看评论

Python爬虫实例_城市公交网络站点数据的爬取方法

09-20

下面小编就为大家分享一篇Python爬虫实例_城市公交网络站点数据的爬取方法，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧

Python爬虫——城市公交、地铁站点和线路数据采集

PC13138的博客

01-09

5037

　　本篇博文为博主（whgiser）原创，转载请注明。　　城市公交、地铁数据反映了城市的公共交通，研究该数据可以挖掘城市的交通结构、路网规划、公交选址等。但是，这类数据往往掌握在特定部门中，很难获取。互联网地图上有大量的信息，包含公交、地铁等数据，解析其数据反馈方式，可以通过Python爬虫采集。闲言少叙，接下来将详细介绍如何使用Python爬虫爬取城市公交、地铁站点和数据。　　...

Python爬取公交车数据（一）：Requests+JSON网络站点爬取8684公交站点公交站台数据

ZesenYuan的博客

07-05

3897

文章目录爬取内容分析爬取代码实现代码运行结果清洗代码实现代码实现效果完整代码爬取内容分析我们首先打开8684手机网页端在这里，我输入了B22并准备点击查询，在此之前记得打开开发者模式看一下网页的请求我们已经成功请求到了数据在开发者模式中，我们可以看到它是使用get方法获取数据的可以看到这里的headers没有cookies，说明我们不用将cookies给放进去救可以爬取了，还要注意的就是我们的headers，将这两个放进我们的代码中并请求便可以获取数据了爬取代码实现代码首先呢我们来

python爬取网站数据程序_python 爬取网址数据示例

weixin_39954569的博客

12-05

184

#!/usr/bin/Python#-*-coding:utf-8-*-frombs4importBeautifulSoupimportrequests.exceptionsfromURLlib.parseimporturlsplitfromcollectionsimportdequeimportre#一个需要爬行的url队列new_urls=deque(['h...

爬取北京市公交线路信息

12-21

这篇文章主要讲述了爬取北京市公交线路信息的整个过程，对于小白还是极为友好的，细节解释的比较详细，话不多说，开始探索知识吧。一、Xpath插件 1、文件夹格式插件安装　　1.首先用户点击谷歌浏览器右上角的自定义及控制按钮，在下拉框中选择设置。　　2.在打开的谷歌浏览器的扩展管理器最左侧选择扩展程序。　　3.勾选开发者模式，点击加载已解压的扩展程序，将文件夹选择即可安装插件。 2、使用方式　　（1）打开方式快捷键　　 Ctrl+Shift+X,如果打不开，就重新加载一下　　（2）取元素的XPath 　　按住Shift键，将鼠标移到需要定位的元素上，该元素会以黄色底纹高亮。左边的XPa

Python爬虫实例爬虫实例-城市公交网络站点数据的爬取方法城市公交网络站点数据的爬取

最新发布

11-02

本实例将详细讲解如何利用Python爬虫技术来抓取城市公交网络站点的数据。首先，我们需要了解Python爬虫的基本概念。Python爬虫是通过编写特定的代码，模拟浏览器行为，向服务器发送请求，获取网页内容，并解析这些...

Python爬虫_城市公交、地铁站点和线路数据采集实例

09-20

Python爬虫在城市公交、地铁数据采集中的应用在当今数字化时代，城市公共交通的数据对于城市规划、交通研究以及公众出行有着重要价值。然而，这些数据通常由政府或相关部门保管，不易获取。Python爬虫作为一种强大...

python 爬虫实现增量去重和定时爬取实例_python增量爬虫_爬虫实现增量去重和定时爬取实例_python_wherev

09-30

Python爬虫技术在数据获取和信息处理中扮演着重要角色，尤其在大数据时代，高效、自动化的数据抓取成为必需。本实例将深入探讨如何利用Python实现增量去重和定时爬取，帮助我们构建更加智能和实用的爬虫程序。首先...

城市公交线路站点信息爬取

03-30

城市公交线路站点信息爬取

python简单爬虫抓取网页内容实例

06-08

一个简单的python示例，实现抓取嗅事百科首页内容，大家可以自行运行测试

python公交路线爬取

12-23

使用高德api进行对指定中心点的矩形范围内的公交路线经纬度和站点进行爬取，适用于交通态势数据爬取

利用Python爬取公交地铁数据（TransBigData版）

NYRyn的博客

11-21

5161

TransbigData

python爬取交通网站json数据

weixin_42750907的博客

04-01

2759

刚学python的新手一个，小问题比较多，大家凑活看看我们爬取的网站是 https://jiaotong.baidu.com/trafficindex/city/list 直接贴上我的代码： import requests import csv import json #获取网页的信息 url = 'https://jiaotong.baidu.com/trafficindex/city/li...

python数据爬取案例--地产数据及交通数据

yili_sha11的博客

08-21

3943

一、地产数据爬取原创代码，打个标签，便于自己以后整理。 1、数据来源数据来源为浙报传媒地产研究院的网上数据，红色标注区段改写后，可用于提取不同地市、不同时段的房地产土地交易数据，用于深入分析。 2、数据爬取采用requests进行数据爬取，需要注意对异常数据的处理。本代码中采用try进行流拍、中止交易处理。 from bs4 import BeautifulSoup imp...

爬取城市公交站点数据的一篇保姆级教程

小一的博客

11-18

2805

大家好，我是小一萧萧的风在瑟瑟的吹，还是可以穿短袖的深圳，似乎也即将会变天前几天，有一个读者在和我交流技术的时候，提出了一个小小的问题这其实是一个很简单的事情，搁在之前，我早就分分钟写个脚...

使用urillb获取北京公交线路信息

weixin_62427272的博客

03-12

2700

使用urillb爬取北京公交线路信息，环境准备：python3.7Pycharmurillb--->python自带了的BeautifulSoup ---->需要自己下载（pip install bs4 他是集成在bs4里面的）1.源码后面都会给出。2.这里默认大家会用pip指令下载东西，如果不会搜索“pip的安装与使用，网上有很多详细教程”。

Python爬虫技巧：城市公交网络站点数据抓取实例

本文件提供了城市公交网络站点数据的爬取实例，读者可以通过实际操作加深对爬虫技术的理解。综合以上知识点，本文件可能是一个关于如何使用Python编写爬虫程序，专门用于爬取城市公交网络站点数据的教程。教程中会...