python爬取网页视频(csdn)————程序.pdf
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)

Python爬取网页视频(csdn)————程序 本资源是一个使用Python语言爬取网页视频的程序,具体来说是从pearvideo网站爬取视频。程序使用了requests和lxml两个库,requests用于发送HTTP请求,而lxml用于解析HTML页面。程序的主要功能是爬取pearvideo网站上的视频,并将其下载到本地。 知识点: 1. Python爬虫技术:程序使用了requests库发送HTTP请求,并使用lxml库解析HTML页面,从而实现了爬虫的功能。 2. HTML解析技术:程序使用了lxml库解析HTML页面,提取出视频的信息。 3. 多线程技术:程序使用了multiprocessing.dummy库实现了多线程下载视频,提高了下载速度。 4. User Agent技术:程序使用了User Agent来模拟浏览器的行为,以便爬虫可以正常工作。 5. Referer技术:程序使用了Referer来模拟浏览器的行为,以便爬虫可以正常工作。 6. 参数传递技术:程序使用了params参数传递技术来传递参数,以便爬虫可以正常工作。 7. JSON解析技术:程序使用了JSON库解析视频状态信息,以便获取视频的下载地址。 8. 文件处理技术:程序使用了文件处理技术将视频下载到本地,并将其保存为MP4文件。 9. 随机数技术:程序使用了随机数技术来生成一个随机数,以便爬虫可以正常工作。 10. 时间戳技术:程序使用了时间戳技术来记录爬虫的开始和结束时间,以便监控爬虫的状态。 代码解释: 1. `#coding=gbk`:表示使用gbk编码。 2. `from lxml import etree`:引入lxml库用于解析HTML页面。 3. `import requests`:引入requests库用于发送HTTP请求。 4. `from multiprocessing.dummy import Pool`:引入multiprocessing库用于实现多线程下载视频。 5. `import random`:引入random库用于生成随机数。 6. `if __name__=='__main__':`:表示程序的入口点。 7. `url='https://www.pearvideo.com/'`:指定爬虫的入口点为pearvideo网站。 8. `header={ ... }`:指定User Agent和Referer等信息,以便爬虫可以正常工作。 9. `respon1=requests.get(url=url,headers=header)`:发送HTTP请求并获取响应。 10. `page_1=respon1.text.encode('utf-8')`:将响应的内容解析为HTML页面。 11. `page_1_xpa=etree.HTML(page_1)`:使用lxml库解析HTML页面。 12. `page_1_list=page_1_xpa.xpath('//div[@class="vervideo-bd"]')`:使用XPath语法提取视频的信息。 13. `for li in page_1_list:`:遍历视频的信息。 14. `str1=''.join(li.xpath('./a//@href'))`:提取视频的地址。 15. `vedio_adress_1='https://www.pearvideo.com/'+ str1`:构建视频的访问地址。 16. `header2 = {...}`:指定User Agent和Referer等信息,以便爬虫可以正常工作。 17. `params={...}`:指定参数,以便爬虫可以正常工作。 18. `vedio_page= requests.get(url='https://www.pearvideo.com/videoStatus.jsp',params=params,headers=header2).json()`:发送HTTP请求并获取视频状态信息。 19. `url1=vedio_page['videoInfo']['videos']['srcUrl']`:提取视频的下载地址。 20. `key='cont-'+id`:构建视频的key。 21. `video_down_url = url1.replace(url1.split('/')[-1].split('-')[0],key)`:构建视频的下载地址。 22. `dic={ ... }`:构建视频的信息字典。 23. `def get_vedio_data(dic):`:定义一个函数用于下载视频。 24. `url=dic['url']`:获取视频的下载地址。 25. `vedio = requests.get(url=url, headers=header).content`:下载视频。 26. `with open(dic['name']+ '.mp4', 'wb') as f:`:将视频保存到本地。 本资源是一个使用Python语言爬取网页视频的程序,涉及到爬虫技术、HTML解析技术、多线程技术、User Agent技术、Referer技术、参数传递技术、JSON解析技术、文件处理技术、随机数技术和时间戳技术等多方面的知识点。
















- 2401_866878692024-08-16资源太好了,解决了我当下遇到的难题,抱紧大佬的大腿~

- 粉丝: 0
我的内容管理 展开
我的资源 快来上传第一个资源
我的收益
登录查看自己的收益我的积分 登录查看自己的积分
我的C币 登录后查看C币余额
我的收藏
我的下载
下载帮助


最新资源
- 网络信息安全B作业题和考试复习题.doc
- 互联网背景下如何提高图书编校质量.docx
- tcpip协议与网络管理标准教程.doc
- 大数据背景下高校思想政治教育过程融入路径探究.docx
- 云南基层干部教育培训信息化建设应用研究教育文档.doc
- 团购网站Groupon及中国电子商务发展分析.doc
- 外贸建站-营销型网站建设.doc
- 斩波电路Matlab仿真电力电子技术课程设计.doc
- 互联网+大连海参养殖新模式探究.docx
- python-游戏数据搜索引擎-基于Python开发的游戏信息检索系统-整合多平台游戏数据-提供快速搜索与详细展示功能-支持用户自定义筛选与收藏-适用于游戏爱好者与开发者查询游戏资.zip
- 人工智能双面观.docx
- 基于欧氏距离的K均方聚类算法研究与应用.docx
- 对安徽江苏山东网络电视台的比较分析.docx
- JavaEEJsp图书系统实用技术文档.doc
- 网络信息安全项目教程习题-解答.doc
- 物联网技术在现代种植业中的应用.docx


