16、结构化标记与模板创建

结构化标记与模板创建

1. 读取 HTML

Python 标准库中的 HTMLParser 模块为处理 HTML 文本文件提供了一种事件驱动的方法。这类似于 XML 处理中的 SAX 方法,我们需要定义一系列回调方法,当满足特定条件时,解析器会调用这些方法。

示例:显示 HTML 页面中的链接

以下是显示 HTML 页面中链接的具体步骤:
1. 创建一个名为 link_scan.py 的新文件。
2. 在文件中输入以下代码:

import sys
from HTMLParser import HTMLParser
from urllib2 import urlopen

class LinkDetect(HTMLParser):
    def handle_starttag(self, tag, attrs):
        if tag == 'a':
            try:
                print dict(attrs)['href']
            except KeyError:
                pass

def check_page(url):
    link_finder = LinkDetect()
    file_obj = urlopen(url)
    for line in file_obj:
        link_finder.feed(line)
    link_finder.close()

if __name__ 
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值