# TuChong_Spider
*偶然的机会在抖音看到这个APP,发现有很多高质量的手机壁纸和图片,对于一个爬虫初学者,这就非常美滋滋了,好多欧美小姐姐啊,哎嘿嘿....*
*图虫网共享图库爬虫, 通过抓取Ajax获取图片ID进行图片保存*
爬取网站: https://stock.tuchong.com
爬取结果

### ***运行环境:***
- Python 3.5+
- Windows 10
- VSCode
### **如何使用**
##### 下载项目源码
`https://github.com/cexll/tuchong_Spider.git`
##### 安装依赖
`$ pip install -r requirements.txt`
### 运行项目
```
$ python spider.py
输入想要搜索的内容: 少女
获取图片ID.....
解析imageID
存在ID,解析
解析HTML图片URL...
准备下载... //p3a.pstatp.com/weili/l/199813*************89.jpg
下载成功----------------------
拼接url访问网页
解析HTML图片URL...
准备下载... //p3a.pstatp.com/weili/l/189***********417.jpg
下载成功----------------------
拼接url访问网页
解析HTML图片URL...
准备下载... //p3a.pstatp.com/weili/l/1**************25.png
拼接url访问网页
解析HTML图片URL...
准备下载... //p3a.pstatp.com/weili/l/2***********62820.jpg
拼接url访问网页
解析HTML图片URL...
准备下载... //p3a.pstatp.com/weili/l/************2.jpg
拼接url访问网页
...
```
*图片链接我就大码了*
### 思路(前方高能,请流量党注意)
首先爬取一个网页,第一步,先打开这个网页

打开之后,先看看怎么搜索图片,下载图片的..


可以看到,图虫网的图片还是不错的
回到正题~
打开`开发者工具`(F12 或者右键 ,然后刷新

然后看一看有没有什么有用的东西....好像仔细找了找是没有发现什么有用的...怎么办呢?
网页往下翻一翻,,,,,

图片中间出现了个`数据包`....这就是我们需要的东西,,但是打开发现不对啊,怎么没有图片下载的链接??

哎,别慌,先去网页打开一个图片看看是什么结构的...

到这里我们发现了,网页url链接有个`imageID=`这东西,好像和之前找到个`数据包`内容是一样的,,,打开后发现的确是一样的
那么整体的结构就清楚了,先把刚才的`数据包`链接打开看看是什么


仔细看了看,发现最开始都有`imageID`,那么思路就有了
通过访问`数据包`的链接得到每一页的`imageID`,在用 `https://stock.tuchong.com/free/image/?` + imageID就可以访问到图片了,好的 coding
### 代码

### 总结
抓取所有的网页都是类似的思路,首先先通过人的逻辑去找到数据,在通过代码去得到,不要一来就上手代码,
细心的朋友肯定发现了,我们抓的是免费图库里的图片,是的,至于为什么不抓`优选图库`,`高端图库`,1是我也是才发现他们不一样,2是别人赚钱的生意我就这样发出来了万一被抓了怎么办....
有能力的可以自己去琢磨一下,我上次看了一下`imageID`这次是保存在HTML里面的,有点类似今日头条的
图虫网爬虫.zip
需积分: 0 79 浏览量
更新于2023-12-29
收藏 5.77MB ZIP 举报
《Python爬虫技术详解》
在信息技术日新月异的今天,数据已成为企业竞争的关键要素。而Python爬虫作为获取网络数据的重要工具,受到了广大开发者的热烈追捧。本篇文章将深入探讨Python爬虫的核心概念、主要技术和实战应用,旨在帮助读者全面理解并掌握这一技能。
Python爬虫是通过编写程序模拟浏览器行为,自动抓取互联网上的信息。Python之所以被广泛用于爬虫开发,得益于其简洁明了的语法和丰富的第三方库,如requests、BeautifulSoup、Scrapy等,使得爬虫开发变得高效且易于维护。
1. **requests库**:这是Python中最基础的HTTP请求库,用于发送HTTP请求,如GET和POST。通过设置headers、cookies等参数,我们可以模拟浏览器的行为,获取网页内容。
2. **BeautifulSoup库**:这是一个用于解析HTML和XML文档的库,它可以帮助我们方便地提取和操作网页中的数据。例如,我们可以通过CSS选择器或XPath表达式找到特定元素,进而提取所需信息。
3. **Scrapy框架**:对于更复杂的爬虫项目,Scrapy提供了一个完整的解决方案。它包括了请求调度、中间件处理、数据存储等多个环节,使得爬虫开发更加结构化和模块化。
了解了基础工具后,我们需要了解一些关键概念:
- **反爬机制**:网站为了防止被过度抓取,通常会设置反爬机制,如验证码、IP限制、User-Agent检查等。应对这些机制,我们可以使用代理IP池、模拟登录、动态加载解析等方式。
- **爬虫伦理**:在进行爬虫活动时,应遵守法律法规,尊重网站的Robots协议,不滥用资源,避免对目标网站造成过大压力。
接下来,我们将通过一个简单的实例,展示如何使用Python爬虫抓取图虫网上的图片数据:
1. 使用requests库发送GET请求到图虫网,获取HTML源代码。
2. 然后,利用BeautifulSoup解析HTML,定位到图片链接所在的元素,并提取出URL。
3. 可以使用requests的get方法下载图片,保存到本地。
在实际操作中,我们可能需要处理各种复杂情况,比如分页、动态加载、登录状态保持等。Python爬虫的魅力就在于它的灵活性和可扩展性,可以根据需求设计出各种定制化的解决方案。
Python爬虫是一项既有挑战又有趣的技能,它不仅能够帮助我们获取大量网络数据,还能为数据分析、机器学习等领域提供宝贵的原始材料。随着Python生态的不断发展和完善,爬虫技术也将持续进步,为数字化时代的信息获取开辟新的道路。

zero2100
- 粉丝: 178
最新资源
- 校园网络用户协议专业版.doc
- 某服饰管理系统项暨网站推广策略.doc
- 机电一体化与机器视觉应用
- 操作系统期末复习指导.doc
- 网络布线方案范文.doc
- 库存管理系统ACCESS课程方案设计书Access大作业(含数据库).doc
- 部门人员增减人力资源计划Excel模板.xls
- 网站合作协议样式二.doc
- 送货单excel表格.doc
- Unit-2-Developing-ideas-Writing-课件-外研版.pptx
- 阿里云发布并开源 Qwen2-Audio,实现语音聊天与音频分析功能
- 电子商务的优势分析与相关问题研究.doc
- 2020年设计封装串口数据通信论文.doc
- 毕业设计(论文)-基于Web内容的数据挖掘分析.doc
- 手册大全--建设工程项目管理有限公司质量手册.doc
- 大学生网络成瘾行为的原因及其对策研究.doc