16、结构化标记与模板创建

Ctrl+C人生

于 2025-08-07 15:24:02 发布

阅读量2

点赞数

CC 4.0 BY-SA版权

分类专栏： Python文本处理：从入门到精通文章标签： HTMLParser BeautifulSoup Mako

本文链接：https://blog.csdn.net/ujm56789012/article/details/150485094

Python文本处理：从入门到精通专栏收录该内容

27 篇文章 ¥399.00 ¥499.90

订阅专栏

超级会员免费看

结构化标记与模板创建

1. 读取 HTML

Python 标准库中的 HTMLParser 模块为处理 HTML 文本文件提供了一种事件驱动的方法。这类似于 XML 处理中的 SAX 方法，我们需要定义一系列回调方法，当满足特定条件时，解析器会调用这些方法。

示例：显示 HTML 页面中的链接

以下是显示 HTML 页面中链接的具体步骤：
1. 创建一个名为 link_scan.py 的新文件。
2. 在文件中输入以下代码：

import sys
from HTMLParser import HTMLParser
from urllib2 import urlopen

class LinkDetect(HTMLParser):
    def handle_starttag(self, tag, attrs):
        if tag == 'a':
            try:
                print dict(attrs)['href']
            except KeyError:
                pass

def check_page(url):
    link_finder = LinkDetect()
    file_obj = urlopen(url)
    for line in file_obj:
        link_finder.feed(line)
    link_finder.close()

if __name__

了解本专栏