
Python 个人学习
Python 个人学习
小粥粥出击
没什么好说的...
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Python爬虫学习4----爬取豆瓣《八佰》电影短评并生成词云
爬取豆瓣《八佰》电影短评并生成词云图片import requestsimport lxml.htmlimport jiebafrom wordcloud import WordClouddef getEssayStr(): s = requests.Session() headers = { 'Accept':'application/json', 'Accept-Encoding':'gzip, deflate, br', 'Accept-Languag原创 2020-08-27 15:53:57 · 958 阅读 · 0 评论 -
Python爬虫学习3----xpath爬取哔哩哔哩排行榜
爬取哔哩哔哩月排行榜,并输出csv格式文件。import requestsimport lxml.htmlimport csvsource = requests.get('https://www.bilibili.com/ranking/all/0/0/30').content.decode('utf-8')selector = lxml.html.fromstring(source)items = selector.xpath('//ul[@class="rank-list"]/li')原创 2020-08-11 14:25:11 · 2937 阅读 · 0 评论 -
Python爬虫学习2----小说网站爬虫开发
从https://www.kanunu8.com/book3/8486抓取《天使国度的恶龙王妃》所有章节的网址,再通过一个多线程爬虫将每章的内容抓去下来。在本地创建一个“《天使国度的恶龙王妃》”的文件夹,并将小说的每一章分别保存到这个文件夹中。import reimport requestsimport osfrom multiprocessing import Pooldef get_article_url_list(html): top_url = 'https://www.kanu原创 2020-08-10 14:30:40 · 543 阅读 · 0 评论 -
Python爬虫学习1----单线程和多线程访问网页比较
爬虫是I/O密集型操作,在请求网页源代码时,使用多线程可以大大提高爬虫的运行效率。例子import requestsimport timefrom multiprocessing.dummy import Pooldef query(url): requests.get(url)start = time.time()for i in range(100): query('https://www.baidu.com/')end = time.time()print(f'单原创 2020-08-07 15:17:36 · 433 阅读 · 0 评论