Python网络数据处理与编码模块详解
1. HTMLParser模块
1.1 概述
HTMLParser模块定义了一个名为HTMLParser的类,可用于解析HTML和XHTML文档。要使用该模块,需定义一个继承自HTMLParser的自定义类,并根据需要重新定义方法。
1.2 类与方法
- HTMLParser() :用于创建HTML解析器的基类,初始化时无需参数。
- 实例方法 :
| 方法 | 描述 |
| — | — |
|h.close()
| 关闭解析器,处理剩余未解析的数据,在所有HTML数据都提供给解析器后调用。 |
|h.feed(data)
| 向解析器提供新数据,数据将立即解析。若数据不完整,不完整部分将被缓冲,下次调用feed()
时继续解析。 |
|h.getpos()
| 返回当前行号和该行中的字符偏移量,以元组(line, offset)
形式返回。 |
|h.get_starttag_text()
| 返回最近打开的开始标签对应的文本。 |
|h.handle_charref(name)
| 遇到字符引用(如&#ref;
)时调用,name
是引用名称的字