Python爬取人民网文章标题

本文介绍了如何使用Python爬取人民网的文章标题,通过jieba库和Wordcloud生成词云。爬取过程包括获取网页内容、解析新闻标题和链接,以及利用jieba的textrank进行文本分析。最后,文章提到了一些关键点,如join()和append()的区别,以及plt.imshow()和plt.show()的用途。

Python爬取人民网文章标题

兴趣点:

还是为了练手,开始想爬人民网主页的所有文章的,但是发现不同板块的页面结构不一样,有的页面还是论坛???我人晕了,最后改弄词云了,无奈╮(╯▽╰)╭

爬取网址:

传送门:http://www.people.com.cn/

爬虫大体思路和方法:

大体思路:
(1)这个页面相对简单,获取页面标签里的文本和链接就不说了
(2)利用jieba库的analyse自动分析方法拆分分析文本
(3)利用Wordcloud的方法实现词云

方法:
(1)页面获取方法:getHTMLText(url)
(2)获取新闻标题和链接的方法:fillList(html,newslist)
(3)利用jieba库和Wordcloud生成词云方法:getCloud(html,path)

参数介绍:
(1)newslist:存储新闻标题和对应链接的列表
(2)path:词云图本地存储路径

重难点介绍:

(1)关于jieba库和Wordcloud库:
这两个库在我之前学习计算机二级Python的时候就了解过并下载了,所以这里就不再介绍了

(2)join() 和 append() 方法的区别:
append是list(列表)的方法,函数参数是可以是任意一个元素,作用是在列表的最后添加上这个新元素
join是string(字符串)的方法,函数参数是一个由字符串组成的列表,作用是用字符串把这个字符串列表里的字符串连接起来

(3)jieba.analyse 和 textrank 简单用法:
传送门:https://www.cnblogs.com/1061321925wu/p/12518541.html

(4)Wordcloud方法与参数:
传送门:https://www.cnblogs.com/delav/articles/7837975.html

(5)wordcloud使之支持中文:
下载能够支持的字体即可:
SimHei字体:https://www.uslogger.com/details/3
注意是font_path,不是font;注意是font_path,不是font;注意是font_path,不是font;我自罚三杯

font_path = r"F:\Fonts\SimHei.ttf"

(6)plt.imshow() 与 plt.show() 区别:
plt.imshow():负责对图像进行处理,并显示其格式
plt.show():则是将plt.imshow()处理后的函数显示出来
plt.axis(‘off’):去掉图像的坐标轴

完整代码:

import requests
import re
import os
from bs4 import BeautifulSoup
import jieba.analyse
from wordcloud import WordCloud
import matplotlib.pyplot as plt

def getHTMLText(url
如果您下载了本程序,但是该程序存在问题无法运行,那么您可以选择退款或者寻求我们的帮助(如果找我们帮助的话,是需要追加额外费用的)。另外,您不会使用资源的话(这种情况不支持退款),也可以找我们帮助(需要追加额外费用) 爬虫(Web Crawler)是一种自动化程序,用于从互联网上收集信息。其主要功能是访问网页、提取数据并存储,以便后续分析或展示。爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。 爬虫的工作流程包括以下几个关键步骤: URL收集: 爬虫从一个或多个初始URL开始,递归或迭代地发现新的URL,构建一个URL队列。这些URL可以通过链接分析、站点地图、搜索引擎等方式获取。 请求网页: 爬虫使用HTTP或其他协议向目标URL发起请求,获取网页的HTML内容。这通常通过HTTP请求库实现,如Python中的Requests库。 解析内容: 爬虫对获取的HTML进行解析,提取有用的信息。常用的解析工具有正则表达式、XPath、Beautiful Soup等。这些工具帮助爬虫定位提取目标数据,如文本、图片、链接等。 数据存储: 爬虫将提取的数据存储到数据库、文件或其他存储介质中,以备后续分析或展示。常用的存储形式包括关系型数据库、NoSQL数据库、JSON文件等。 遵守规则: 为避免对网站造成过大负担或触发反爬虫机制,爬虫需要遵守网站的robots.txt协议,限制访问频率深度,并模拟人类访问行为,如设置User-Agent。 反爬虫应对: 由于爬虫的存在,一些网站采取了反爬虫措施,如验证码、IP封锁等。爬虫工程师需要设计相应的策略来应对这些挑战。 爬虫在各个领域都有广泛的应用,包括搜索引擎索引、数据挖掘、价格监测、新闻聚合等。然而,使用爬虫需要遵守法律伦理规范,尊重网站的使用政策,并确保对被访问网站的服务器负责。
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值