python爬取网页视频（csdn）————程序.pdf_python爬取网页视频资源-CSDN下载

版权申诉

5星 · 超过95%的资源 182 浏览量 2021-12-03 10:52:30 上传评论收藏 65KB PDF 举报

Python爬取网页视频（csdn）————程序本资源是一个使用Python语言爬取网页视频的程序，具体来说是从pearvideo网站爬取视频。程序使用了requests和lxml两个库，requests用于发送HTTP请求，而lxml用于解析HTML页面。程序的主要功能是爬取pearvideo网站上的视频，并将其下载到本地。知识点： 1. Python爬虫技术：程序使用了requests库发送HTTP请求，并使用lxml库解析HTML页面，从而实现了爬虫的功能。 2. HTML解析技术：程序使用了lxml库解析HTML页面，提取出视频的信息。 3. 多线程技术：程序使用了multiprocessing.dummy库实现了多线程下载视频，提高了下载速度。 4. User Agent技术：程序使用了User Agent来模拟浏览器的行为，以便爬虫可以正常工作。 5. Referer技术：程序使用了Referer来模拟浏览器的行为，以便爬虫可以正常工作。 6. 参数传递技术：程序使用了params参数传递技术来传递参数，以便爬虫可以正常工作。 7. JSON解析技术：程序使用了JSON库解析视频状态信息，以便获取视频的下载地址。 8. 文件处理技术：程序使用了文件处理技术将视频下载到本地，并将其保存为MP4文件。 9. 随机数技术：程序使用了随机数技术来生成一个随机数，以便爬虫可以正常工作。 10. 时间戳技术：程序使用了时间戳技术来记录爬虫的开始和结束时间，以便监控爬虫的状态。代码解释： 1. `#coding=gbk`：表示使用gbk编码。 2. `from lxml import etree`：引入lxml库用于解析HTML页面。 3. `import requests`：引入requests库用于发送HTTP请求。 4. `from multiprocessing.dummy import Pool`：引入multiprocessing库用于实现多线程下载视频。 5. `import random`：引入random库用于生成随机数。 6. `if __name__=='__main__':`：表示程序的入口点。 7. `url='https://www.pearvideo.com/'`：指定爬虫的入口点为pearvideo网站。 8. `header={ ... }`：指定User Agent和Referer等信息，以便爬虫可以正常工作。 9. `respon1=requests.get(url=url,headers=header)`：发送HTTP请求并获取响应。 10. `page_1=respon1.text.encode('utf-8')`：将响应的内容解析为HTML页面。 11. `page_1_xpa=etree.HTML(page_1)`：使用lxml库解析HTML页面。 12. `page_1_list=page_1_xpa.xpath('//div[@class="vervideo-bd"]')`：使用XPath语法提取视频的信息。 13. `for li in page_1_list:`：遍历视频的信息。 14. `str1=''.join(li.xpath('./a//@href'))`：提取视频的地址。 15. `vedio_adress_1='https://www.pearvideo.com/'+ str1`：构建视频的访问地址。 16. `header2 = {...}`：指定User Agent和Referer等信息，以便爬虫可以正常工作。 17. `params={...}`：指定参数，以便爬虫可以正常工作。 18. `vedio_page= requests.get(url='https://www.pearvideo.com/videoStatus.jsp',params=params,headers=header2).json()`：发送HTTP请求并获取视频状态信息。 19. `url1=vedio_page['videoInfo']['videos']['srcUrl']`：提取视频的下载地址。 20. `key='cont-'+id`：构建视频的key。 21. `video_down_url = url1.replace(url1.split('/')[-1].split('-')[0],key)`：构建视频的下载地址。 22. `dic={ ... }`：构建视频的信息字典。 23. `def get_vedio_data(dic):`：定义一个函数用于下载视频。 24. `url=dic['url']`：获取视频的下载地址。 25. `vedio = requests.get(url=url, headers=header).content`：下载视频。 26. `with open(dic['name']+ '.mp4', 'wb') as f:`：将视频保存到本地。本资源是一个使用Python语言爬取网页视频的程序，涉及到爬虫技术、HTML解析技术、多线程技术、User Agent技术、Referer技术、参数传递技术、JSON解析技术、文件处理技术、随机数技术和时间戳技术等多方面的知识点。

资源推荐

资源详情

资源评论