结构化标记与模板创建
1. 读取 HTML
Python 标准库中的 HTMLParser
模块为处理 HTML 文本文件提供了一种事件驱动的方法。这类似于 XML 处理中的 SAX 方法,我们需要定义一系列回调方法,当满足特定条件时,解析器会调用这些方法。
示例:显示 HTML 页面中的链接
以下是显示 HTML 页面中链接的具体步骤:
1. 创建一个名为 link_scan.py
的新文件。
2. 在文件中输入以下代码:
import sys
from HTMLParser import HTMLParser
from urllib2 import urlopen
class LinkDetect(HTMLParser):
def handle_starttag(self, tag, attrs):
if tag == 'a':
try:
print dict(attrs)['href']
except KeyError:
pass
def check_page(url):
link_finder = LinkDetect()
file_obj = urlopen(url)
for line in file_obj:
link_finder.feed(line)
link_finder.close()
if __name__