jsoup html转义处理,jsoup解析网页出现转义符问题

https://www.oschina.net/question/996055_136438

***************************************

我要解析这个网页  http://sports.163.com/13/0830/22/97IFSI5I00051CD5.html

然后直接在获得源码后,使用select  只捕获其中一部分  doc.select("textarea[id^=photoList]")

为何出现了这个情况呢、求大牛们帮忙解决啊 @红薯

1d702be2c150fac95afa4039c0cf7699.png

很奇怪的是,我用转义符全部替换之后,直接打印在控制台,显示正确,然后又用Jsoup.parse()这个方法,结果又成了这样子、大神们,帮帮忙吧@jsoup

html()和outerHtml()的区别只是有没有包含本层而已,最终底层方法是一样的,所以这里确实转义了。

其实也说得通,因为textarea里的内容是“文本”,html里的纯文本内容,如果不进行转义是不安全的。

当然这里你的需求是"保持原文",“转义再反转”其实是无法保持原文的。而且Apache的StringEscapeUtils的转义范围比Jsoup要小,所以其实反转是不完整的。

有个比较hack的方法:

Document doc = Jsoup.connect("http://sports.163.com/13/0830/22/97IFSI5I00051CD5.html").get();

//清空jsoup的转义表,会使jsoup失去转义能力

Entities.EscapeMode.base.getMap().clear();

Elements elements = doc.select("textarea[id^=photoList]");

for(Element e:elements){

System.out.println(e.html());

}

[java] jsoup 解析网页获取省市区域信息

到国家统计局抓取数据, 到该class下解析数据 /** * jsoup解析网页 * @author xwolf * @date 2016-12-13 18:11 * @since V1.0.0 */ ...

Jsoup解析网页源码时常用的Element(s)类

Jsoup解析网页源码时常用的Element(s)类 一.简介 该类是Node的直接子类,同样实现了可克隆接口.类声明:public class Element extends Node 它表示由一个 ...

Jsoup解析网页html

Jsoup解析网页html 解析网页demo: 利用Jsoup获取截图中的数据信息: html代码片段:

使用java开源工具httpClient及jsoup抓取解析网页数据

今天做项目的时候遇到这样一个需求,需要在网页上展示今日黄历信息,数据格式如下 公历时间:2016年04月11日 星期一 农历时间:猴年三月初五 天干地支:丙申年 壬辰月 癸亥日 宜:求子 祈福 开光 ...

jsoup开发网页客户端3

这个系列好久没更新,最近好忙,老大说未来是Html5的,所以最近一直学习前端以及Html5的一些东西.Android5.0的诞生,让我们眼前一亮,独特的Material风格更是吸引了无数人. 话说不学 ...

jsoup解析页面

package com.java.jsoup; /** * jsoup解析网页 * @author nidegui * @version 2019年4月29日 下午5:12:02 * */ impor ...

httpclient+jsoup实现网页信息抓取

需求分析:抓取:http://tools.2345.com/rili.htm中的万年历(阳历.阴历等等). 1.首先为抓取的内容创建一个类.实现封装. package com.wan.domain; ...

使用Jsoup帮助解析具有html标签的数据和解析网页

下载Jsoup包后导入 /** * Created by YGW on 2016/4/17. * 显示公告的详细内容 */public class PressFragment extends Frag ...

Jsoup代码示例、解析网页+提取文本

使用Jsoup解析HTML 那么我们就必须用到HttpClient先获取到html 同样我们引入HttpClient相关jar包 以及commonIO的jar包 我们把httpClient的基本代码写 ...

随机推荐

Windows安装Python包下载工具pip遇到的问题

到Python的官网下载get-pip.py文件,然后按照说明进行安装. 在安装过程中,我遇到以下问题: cmd的codepage引起的编码错误,提示65001编码错误,通过chcp 936切换到默认 ...

clang: error: linker command failed with exit code 1 (use -v to see invocation)

报错提示: ... ld: 6 duplicate symbols for architecture x86_64 clang: error: linker command failed with e ...

HDOJ 2181 哈密顿绕行世界问题

哈密顿绕行世界问题 Time Limit: 3000/1000 MS (Java/Others)    Memory Limit: 32768/32768 K (Java/Others)Total S ...

POI使用详解

Apache POI使用详解 1.POI结构与常用类 (1)POI介绍 Apache POI是Apache软件基金会的开源项目,POI提供API给Java程序对Microsoft Office格式档案 ...

BroadcastReceiver自学笔记

1. 使用步骤:  1.1 声明Intent Intent intent = new Intent("name");------静态常用 IntentFilter filter = ...

Java 缩写总结

1.JVM:Java Virtual Machine(Java虚拟机)的缩写. 它是一个虚构出来的计算机,是通过在实际的计算机上仿真模拟各种计算机功能来实现的. Java语言的一个非常重要的特点就是与 ...

Django学习笔记(2)--视图函数

用pycharm打开FDJ项目 URL分发器 视图: 视图一般都写在app的view,py中.并且视图的第一个参数永远都是request(一个HttpRequest)对象.这个对象存储了请求过来的所有 ...

6. 合并排序数组 II

6. Merge Two Sorted Arrays Description Merge two given sorted integer array A and B into a new sorte ...

ubuntu下安装thrift

configure: error: "Error: libcrypto required."

Linux学习之Vim/Vi使用(十三)

Linux学习之Vim/Vi使用 Vim/Vi简介 Vim/Vi工作模式 Vim/Vi基本使用 Vim/Vi应用技巧 Vim/Vi简介 Vim/Vi是一个功能强大的全屏幕文本编辑器,是Linux/UN ...

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值