python 如何爬取审查元素中Elements里有的元素，而源代码里没有的标签？

最新推荐文章于 2025-07-15 16:19:48 发布

原创最新推荐文章于 2025-07-15 16:19:48 发布 · 3.7w 阅读

53 ·

CC 4.0 BY-SA版权

文章标签：

#正则表达式 #python

学习python我所遇到的坑以及解决方法专栏收录该内容

53 篇文章

订阅专栏

本文介绍了解析使用JavaScript动态渲染的网页元素的方法，针对特定网站的新闻页面，通过正则表达式解析作者信息，解决了XPath和CSS无法直接获取动态加载内容的问题。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

网址：http://gpj.mofcom.gov.cn/article/ch/201808/20180802773240.shtml

在这里我们可以看到，这个网站的新闻页面的作者，发布时间那一栏的标签在审查元素的Elements里有的元素，而源代码里却没有，如果单纯的使用xpath或者css无法匹配解析出想要的信息。

并且我们可以看到这个元素是使用JavaScript进行渲染的，在源代码中的开头我们可以看到以下这张图片的代码：

解决方案有很多，接下来我们来看看

方法1：正则表达式

在这推荐一个验证正则表达式的网站：http://tool.oschina.net/regex

因此这里举一个例子，解析代码是这样的：

news_author = response.xpath('//script').re('v.{2}\ss.{4}e\s=\s\"[\u4e00-\u9fa5]+\"')[0][13:].replace('"','')

其他方法后续再补充

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

腾阳

关注关注

2
点赞
踩
53

收藏

觉得还不错? 一键收藏
10
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

如何爬取审查元素中Elements里有的，而源代码里没有的标签内容？

weixin_40531919的博客

03-14

2315

有些网页采用了异步加载的方式，将部分内容放在了其他的URL地址中，导致我们通过审查元素可以在相应的标签找到该内容，但在检查源代码的时候发现没有该内容，自然通过当前的url爬取不到目标数据。

python爬虫代码没有结果_小白学python爬虫：3.页面源码中找不到数据？

weixin_39789646的博客

11-20

1753

这篇文章是基于我的上两篇文章而来，如果你还没有相关的基础知识（html，http），可以看一下：我在第一篇文章中说到我们要爬的数据都是“嵌入”在源码中的，但是大家爬的网站慢慢多起来的时候，会发现我说的不对啊。怎么死活找不到目标数据呢？下面我带大家一起走一遍那些年我踩过的坑：异步加载XMLHttpRequest 用于在后台与服务器交换数据。这意味着可以在不重新加载整个网页的情况下，对网页的某部分进行...

10 条评论您还未登录，请先登录后发表或查看评论

获取隐藏了部分内容的网页源代码，审查元素可以，查看源代码不行。学习python爬虫

最新发布

qq_42923937的博客

07-15

870

Python属于解释型语言，其代码在运行时被逐行翻译为机器码。Python解释器负责执行这一转换过程，其内置编译器会先将源代码转为.pyc字节码文件（通常存储于__pycache__目录），再通过虚拟机执行。CPython：官方标准解释器，用C语言编写其他解释器：如Jython（基于JVM）、IronPython（.NET平台）等“”“打印传入的字符串”“”print(str)return在类内部用def定义方法时，第一个参数必须是self。

使用python获取元素的文本内容

m0_74604209的博客

10-06

498

列如：查找class=“line-4”行中a标签中src内容。4.使用etree解析html的内容。2. 导入lxml库的etree包。3.截取自己所需的html文本内容。1.创建python文件。

爬虫——审查元素与网页源代码不一致问题

qq_43206685的博客

07-07

9119

按照常规做法，获得源网页后无论用selector还是Xpath，均无返回值问题爬取NCBI网站的数据，审查元素与获得的网页源代码不一样，爬取的东西在源码中没有，审查元素中存在。经过查找，发现NCBI该部分为异步传输，所需信息在Network下XHR的第九个文件中，且网址与爬取的网址不一致，需要POST获取网页。 ...

chorme开发者工具element中无法右击源代码

xiao_kelai的博客

06-12

539

浏览器点击检查不能直接右击代码

python爬取音乐源码_手把手教你使用Python抓取QQ音乐数据（第一弹）

weixin_30000407的博客

12-30

2150

【一、项目目标】获取 QQ 音乐指定歌手单曲排行指定页数的歌曲的歌名、专辑名、播放链接。由浅入深，层层递进，非常适合刚入门的同学练手。【二、需要的库】主要涉及的库有：requests、json、openpyxl【三、项目实现】1.了解 QQ 音乐网站的 robots 协议只禁止播放列表，可以操作。2.进入 QQ 音乐主页 https://y.qq.com/3.输入任意歌手，比如邓紫棋4.打开审查元...

python爬取qq群成员_Python爬取QQ群群员

weixin_39766109的博客

12-05

690

昨天发现了一个群中人虽然很多，有一千人，但是没有几个人说话，群中一位朋友说有许多人是死号，我好奇去看了看，发现确实如此，有许多人的空间中说说，照片，日志都是0，访客只有几百，甚至几十，想通过学过的Python做一点事，思路是通过Python+selenium通过浏览器动态登录qq空间，然后通过selenium的find_elements_by_class_name动态获取网页的内容中qq成员的网址...

python爬取豆瓣影评生成词云的课程设计报告_Python爬取豆瓣影评，生成词云图，只要简单一步即可实现。...

weixin_39622150的博客

12-17

1913

最近看了一部电影《绣春刀》，里面的剧情感觉还不错，本文爬取的是绣春刀电影的豆瓣影评，1000个用户的短评，共5W多字。用jieba分词，对词语的出现频率进行统计，再通过wordcloud生成词云图。今天和小伙伴们一起梳理下具体实现的流程，具体源代码已经上传到NLP小白公众号中，发送“词云图”，即可获取源代码。先上图为敬，看看豆瓣的网友评论侧重哪个方面。PS:词语出现的频率越多，字体越大具体流程如...

python爬取音乐并保存的格式_教你使用Python抓取QQ音乐数据（一）

weixin_39968760的博客

11-24

714

python爬虫元素和源码不同_python爬虫应用

weixin_39832628的博客

12-08

610

1. 前言我不是专业爬虫工程师，只是业余爬点数据做做分析和挖掘工作，所以没有使用到复杂的反爬虫和线程池等技术，也没有用到beautifulSoup这样的神库。但是并不影响我轻松爬取网页数据。这里简单记录下浏览器操作，源码读取，以及数据提取的方法，够用了。2. selenium操作chrome浏览器2.1. 安装chrome浏览器和浏览器驱动首先你需要安装chrome浏览器，以及下载对应的chrom...

xml中加html源码,从xml获取数据以插入html标签，但在源代码中未看到

weixin_29664819的博客

05-31

266

从xml获取数据以插入到ul标签中。当我运行代码时，页面正在加载，并且我可以在浏览器上看到图像，但jquery代码不起作用(例如，单击到#GalleryList元素)，因为附加代码未显示在浏览器视图源中。我怎样才能找到解决方案？从xml获取数据以插入html标签，但在源代码中未看到JS：$(document).ready(function() {$.ajax({type: "GET",url: "...

Python3 爬虫实战教程 ,网页审查元素【Python学习连续，请关注】

m0_67373485的博客

03-09

1219

我们可以在本地修改HTML信息，为网页”整容”，但是我们修改的信息不会回传到服务器，服务器存储的HTML信息不会改变。我们在页面的哪个位置点击审查元素，浏览器就会为我们定位到相应的HTML位置，进而就可以在本地更改HTML信息。我们可以看到，我们已经顺利获得了该网页的HTML信息。举个容易理解的例子：我们的基因决定了我们的原始容貌，服务器返回的HTML决定了网站的原始容貌。requests.get()方法必须设置的一个参数就是url，因为我们得告诉GET请求，我们的目标是谁，我们要获取谁的信息。

关于Xath在python中无法定位elements

zqg123123123的博客

02-23

272

major_xml=etree.HTML(major_html) major_list = major_xml.xpath("//font[contains(text(),‘各专业最高分’)]/…/following-sibling::table[1]//tr[position()>1]") 一直以为是中文编码出了问题，其实是谷歌浏览器中的补全代码编写的xpath和时间通过etree.HTM...

【动态网页抓取】：用Python抓取所有内容的指南

gongdiwudu的专栏

08-06

7570

您在抓取动态网页内容时是否得到了糟糕的结果？不仅仅是你。对于标准抓取工具来说，爬网动态数据是一项具有挑战性的任务（至少可以说）。这是因为当发出HTTP请求时，响应程序的某些部分JavaScript在后台运行，而抓取动态网站需要在浏览器中呈现整个页面并提取目标信息。

爬虫基础入门（一）

weixin_45475434的博客

03-18

586

爬虫的作用 1.数据采集抓取微博评论（机器学习舆情监控）抓取招聘网站的招聘信息（数据分析，挖掘）新浪滚动新闻百度新闻网站 2.软件测试爬虫之自动化测试虫师 3.12306抢票 4.网站上的投票 5.网络安全短信轰炸 web漏洞扫描爬虫分类根据被爬取的数量不同，分类：通用爬虫：通常指搜索引擎的爬虫聚焦爬虫：针对特定网站的爬虫根据是否获取数据为目的，分类：功能性爬虫，比如，...

Element-ui源码分析

黑猫几绛的博客

11-28

1万+

分析Element-ui封装思想在平时写业务或者是写玩具的时候为了方便，我们会使用各种各样的组件库。虽然说基本需求看文档就可以了，但是文档中提供的方法和业务需求相比肯定是有一定差距的，这时候就需要自己封装组件了；并且，在写了一些代码后感觉，其实在不同的项目中写过功能差不多相同的代码，那为什么不封装一下方便以后、或者是其他人使用呢？写这篇博客的时候非常感谢b站up主樱满空，他的源码分析非常的清晰！可以去看看这位up主的视频讲解 https://space.bilibili.com/1842032?spm_