前言
政府类舆情监控系统少不了对政府类微信公众号文章的爬取。常用的方式有两种:一种是个人微信账号爬取,一种是个人公众号爬取。
个人微信账号爬取(爬取示例链接:https://mp.weixin.qq.com/mp/profile_ext?action=home&__biz=MzAxMDE1MTk3Nw==)极易被屏蔽且解除屏蔽周期长。长期培养微信账号是一个成本;但养好账号后,也会有“养兵千日,用兵一时”的尴尬,因为真的只能用一时,之后就是漫长的解封等待时间。
鉴于个人微信账号爬取几近的不可持续性,本文将介绍个人公众号爬取。
方法
1、申请个人微信公众号
入口链接:https://mp.weixin.qq.com,申请流程此处不予介绍。
2、获取采集资源(如:Cookie等)
点击“图文消息”
点击“引用”
依次点击并赋值:“公众号文章”>“查找公众号文章”>“公众号”
拦截数据接口,获取采集资源(如:Cookie等)
3、编写爬取程序
爬取程序请根据业务需要自行编写,此处不予展示。爬取不同公众号时,仅需替换数据接口中的fakeid(目标公众号的标识,由微信平台提供)。