爬虫资源：Beanbun是用PHP编写的多进程网络爬虫框架，支持分布式，开放性、扩展性，基于Workerman资源-CSDN下载

共19个文件

php：13个

md：3个

gitignore：1个

爬虫

分布式

需积分: 5 47 浏览量 2024-04-30 11:28:52 上传评论收藏 35KB ZIP 举报

**标题与描述解析** 标题中的“爬虫资源：Beanbun 是用 PHP 编写的多进程网络爬虫框架，支持分布式，开放性、扩展性，基于 Workerman”揭示了几个关键知识点： 1. **Beanbun**: Beanbun 是一个 PHP 开发的网络爬虫框架，它专门用于数据抓取和处理。 2. **PHP**: Beanbun 的编程语言是 PHP，这是一种广泛使用的服务器端脚本语言，特别适合 Web 开发。 3. **多进程**: Beanbun 支持多进程技术，这意味着它可以同时处理多个任务，提高爬取效率。 4. **分布式**: 分布式爬虫意味着 Beanbun 可以在多台机器上运行，从而扩大爬取能力，处理大规模的数据抓取任务。 5. **开放性和扩展性**: 这表明 Beanbun 框架允许用户自由地添加和修改功能，适应不同的项目需求。 6. **Workerman**: Beanbun 基于 Workerman，这是一款 PHP 的高性能、事件驱动的异步非阻塞服务器框架，为爬虫提供了稳定的基础。 **标签解析** 1. **爬虫**: 指的是网络爬虫，是一种自动化程序，用于抓取互联网上的信息。 2. **PHP**: 标签再次强调了 Beanbun 的开发语言。 3. **分布式**: 标签突出了 Beanbun 的分布式特性，适合处理大规模的爬虫项目。 **压缩包子文件的文件名称列表** 这里给出的“beanbun-master”可能是指 Beanbun 框架的源代码仓库主分支，通常在 Git 版本控制系统中，`master` 分支代表项目的主线。 **详细知识点** 1. **网络爬虫基础**: 网络爬虫是通过模拟浏览器行为，自动遍历和抓取网页信息的程序。它们通常由数据抓取、解析、存储等组件组成。 2. **PHP 爬虫**: PHP 由于其易学性和灵活性，常被用来编写爬虫。PHP 爬虫可以处理 HTTP 请求、解析 HTML、CSS 和 JavaScript，以及与数据库交互。 3. **多进程编程**: 多进程允许一个程序同时运行多个独立的执行单元，提高了并行处理的能力，尤其在处理大量并发请求时非常有用。 4. **分布式爬虫**: 分布式爬虫通过协调多台计算机协同工作，可以实现更高效、更大规模的数据抓取。这种架构能够处理更复杂的网络环境，避免单点故障，提高抓取速度。 5. **Workerman 框架**: Workerman 是 PHP 的一个异步事件驱动的网络框架，适用于 TCP、UDP、HTTP、WebSocket 等协议。它能创建高并发、高吞吐量的服务，对于网络爬虫这种 I/O 密集型应用非常适用。 6. **Beanbun 框架特点**: Beanbun 结合了 PHP 和 Workerman 的优势，提供了方便的数据抓取、处理和分布式部署能力，且具备高度的定制化空间，用户可以根据项目需求自定义插件和中间件。 7. **扩展性与开放性**: 这意味着 Beanbun 提供了丰富的 API 和钩子函数，开发者可以方便地添加新功能或调整现有行为，增强了框架的适用性。 8. **数据处理与存储**: Beanbun 可能内建了对抓取数据的处理和存储机制，如清洗、去重、分析等，以及对接各种数据库的能力。 9. **爬虫伦理与法规**: 使用 Beanbun 或其他爬虫框架时，应遵循网站的 robots.txt 规则，并尊重数据隐私，避免违反法律法规。总结起来，Beanbun 是一个利用 PHP 语言开发的多进程、分布式网络爬虫框架，它基于 Workerman 架构，具有良好的开放性和扩展性，适合开发者构建高效、可扩展的爬虫项目。

资源推荐

资源详情

资源评论

收起资源包目录

beanbun-master.zip （19个子文件）

beanbun-master

src

Lib

BloomFilter.php 5KB

Helper.php 6KB

Client.php 11KB

Db.php 2KB

Server.php 7KB

DbConnection.php 33KB

Exception

BeanbunException.php 84B

Beanbun.php 14KB

Queue

MemoryQueue.php 4KB

RedisQueue.php 4KB

QueueInterface.php 289B

LICENSE 1KB

composer.json 581B

examples

phantomjs.php 1KB

zhihu_user.php 4KB

docs

chs

changelog.md 818B

README.md 28KB

.gitignore 6B

README.md 3KB

# Beanbun Beanbun 是用 PHP 编写的多进程网络爬虫框架，具有良好的开放性、高可扩展性。 ## 简介 Beanbun 是一个简单可扩展的爬虫框架，支持守护进程模式与普通模式，守护进程模式基于 [Workerman](http://www.workerman.net)，下载器基于 [Guzzle](http://guzzle.org)。框架名称来自于作者家的猫，此猫名叫门丁，“门丁”是北方的一种面点。门丁 -> 豆包 -> bean bun <img src="/images/mending.jpg" alt="label" width="300"> ## 特点 - 支持守护进程与普通两种模式（守护进程模式只支持 Linux 服务器） - 默认使用 Guzzle 进行爬取 - 支持分布式 - 支持内存、Redis 等多种队列方式 - 支持自定义URI过滤 - 支持广度优先和深度优先两种爬取方式 - 遵循 PSR-4 标准 - 爬取网页分为多步，每步均支持自定义动作（如添加代理、修改 user-agent 等） - 灵活的扩展机制，可方便的为框架制作插件：自定义队列、自定义爬取方式... ## 安装 Beanbun 可以通过 composer 进行安装。 ``` $ composer require kiddyu/beanbun ``` ## 快速开始创建一个文件 start.php，包含以下内容 ``` php <?php require_once(__DIR__ . '/vendor/autoload.php'); use Beanbun\Beanbun; $beanbun = new Beanbun; $beanbun->seed = [ 'http://www.950d.com/', 'http://www.950d.com/list-1.html', 'http://www.950d.com/list-2.html', ]; $beanbun->afterDownloadPage = function($beanbun) { file_put_contents(__DIR__ . '/' . md5($beanbun->url), $beanbun->page); }; $beanbun->start(); ``` 在命令行中执行 ``` $ php start.php ``` 接下来就可以看到抓取的日志了。 ## 使用 ### 启动与停止上面的例子中，爬虫是以普通模式运行的，上面的代码放在网站项目中，也可以正常执行，如果我们想让爬虫一直执行，就需要使用守护进程模式。同样是上面的代码，我们只需要把执行的命令增加一个 start 参数，即会变成守护进程模式。 ``` $ php start.php start ``` 需要说明的是，普通模式下不依赖队列，爬虫只爬取 seed 中得地址，依次爬取完成后，程序即结束。而守护进程模式需要另外开启队列（内存队列、Redis 队列等），但拥有更多的功能，如可以自动发现页面中的链接加入队列，循环爬取。以下是守护进程模式下的说明。 *启动* ``` // 启动爬虫，开启所有爬虫进程 $ php start.php start ``` *停止* ``` // 停止爬虫，关闭所有爬虫进程 php start.php stop ``` *清理* ``` // 删除日志文件，清空队列信息 php start.php clean ``` 在守护模式中，如果需要使用数据库、redis 等连接，需要在各种回调函数中建立连接，否则可能会发生意想不到的错误。 建议使用单例模式，并在 [startWorker](#startworker) 中关闭之前建立的连接。 ### 例子 #### 例子一爬取糗事百科热门列表页，采用守护进程模式。在开始爬取前，我们需要一个队列，在这里使用框架中带有的内存队列。首先建立一个队列文件 queue.php，写入下列内容 ``` php <?php require_once(__DIR__ . '/vendor/autoload.php'); // 启动队列 \Beanbun\Queue\MemoryQueue::server(); ``` 建立爬虫文件 start.php，写入下列内容 ``` php <?php use Beanbun\Beanbun; use Beanbun\Lib\Helper; require_once(__DIR__ . '/vendor/autoload.php'); $beanbun = new Beanbun; $beanbun->name = 'qiubai'; $beanbun->count = 5; $beanbun->seed = 'http://www.qiushibaike.com/'; $beanbun->max = 30; $beanbun->logFile = __DIR__ . '/qiubai_access.log'; $beanbun->urlFilter = [ '/https:\/\/siteproxy.ruqli.workers.dev:443\/http\/www.qiushibaike.com\/8hr\/page\/(\d*)\?s=(\d*)/' ]; // 设置队列 $beanbun->setQueue('memory', [ 'host' => '127.0.0.1', 'port' => '2207' ]); $beanbun->afterDownloadPage = function($beanbun) { file_put_contents(__DIR__ . '/' . md5($beanbun->url), $beanbun->page); }; $beanbun->start(); ``` 接下来在命令行中执行 ``` $ php queue.php start $ php start.php start ``` 先启动队列进程，再启动爬虫。 ## Beanbun 类 ### 属性 Beanbun 对象实例化后，可以对对象的一些属性进行设置，这样爬虫爬取网页时，就会按照这些设置进行爬取。 #### name 定义当前爬虫名称，string 类型，可选设置。 示例 ``` php $beanbun->name = 'demo'; ``` #### daemonize 定义当前爬虫运行方式，bool 类型，可选设置。 true 为守护进程模式，false 为普通模式。 CLI 模式下默认为 true，http请求下或CLI模式下没有`start`参数，默认为 false。 示例 ``` php $beanbun->daemonize = false; ``` #### count 定义当前爬虫进程数，仅守护进程模式下有效。int 类型，可选设置，默认为 5。 示例 ``` php $beanbun->count = 10; ``` #### seed 定义爬虫入口，string 或 array 类型，必选设置。 示例 ``` php $beanbun->seed = 'http://www.950.com/'; // or $beanbun->seed = [ 'http://www.950d.com/', 'http://www.950d.com/list-1.html', [ 'http://www.950d.com/list-2.html', [ 'timeout' => 10, 'headers' => [ 'user-agent' => 'beanbun-spider', ] ] ] ]; ``` #### urlFilter 定义当前爬取网页url的正则表达式，符合表达式规则的 url 才会被加入队列， array 类型，可选设置。 示例 ``` php $beanbun->urlFilter = [ '/https:\/\/siteproxy.ruqli.workers.dev:443\/http\/www.950d.com\/list-(\d*).html/' ]; ``` #### max 定义当前爬虫最大抓取网页数量，如抓取达到此数则停止抓取，为0时不限制抓取数量，默认为0。int 类型，可选设置。 示例 ``` php $beanbun->max = 100; ``` #### interval 定义当前每个爬虫进程抓取网页的间隔时间，默认为1，最低为0.01。double 类型，可选设置。 示例 ``` php $beanbun->interval = 0.1; ``` #### timeout 定义爬虫全局下载单个网页超时时间，单位为秒，默认为5秒。int 类型，可选设置。 如果为单个网页单独设置了超时时间(如在 options 内)，则覆盖此项。 示例 ``` php $beanbun->timeout = 10; ``` #### userAgent 定义爬虫全局下载单个网页 user-agent 属性，string 类型，可选设置。 `pc`时随机生成 PC 浏览器 user-agent， `ios`时随机生成 iOS 浏览器 user-agent， `android`时随机生成 android 浏览器 user-agent， `mobile`时随机生成 iOS 或 android 浏览器 user-agent， 默认值为`pc`，如不为以上值，则直接使用定义值。如果为单个网页单独设置了 user-agent(如在 options 内)，则覆盖此项。 示例 ``` php $beanbun->userAgent = 'ios'; // or $beanbun->userAgent = 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:29.0) Gecko/20100101 Firefox/29.0'; ``` #### logFile 定义当前爬虫日志文件路径，仅守护进程模式下有效。string 类型，可选设置。 示例 ``` php $beanbun->logFile = __DIR__ . '/beanbun_access.log'; ``` #### hooks 定义爬虫执行钩子，也是爬虫每次爬取网页的执行顺序。array 类型，可选设置。 默认为['startWorkerHooks', 'beforeDownloadPageHooks', 'downloadPageHooks', 'afterDownloadPageHooks', 'discoverUrlHooks', 'afterDiscoverHooks', 'stopWorkerHooks', ] 示例 ``` php $beanbun->hooks = [ 'startWorkerHooks', 'beforeDownloadPageHooks', 'downloadPageHooks', 'afterDownloadPageHooks', 'discoverUrlHooks', 'afterDiscoverHooks', 'customHooks', 'stopWorkerHooks', ]; ``` #### id 返回当前爬虫进程id，int 类型 示例 ``` php // 下载页面后写一条日志，记录进程下载页面成功 $beanbun->afterDownloadPage

评论收藏

内容反馈