MarkupLM源码解析之数据准备(四)

本文详细解析MarkupLM数据准备过程中,如何从DOM树中获取包含标注值的xpath列表。核心逻辑涉及对html元素的text和tail属性的理解,用于处理字段可能包含多个值的情况。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

前言

原文地址:https://blog.csdn.net/m0_48742971/article/details/123301571,严禁转载。

本文解析get_value_xpaths方法。

这个方法的作用

Gets a list of xpaths that contain a text truth_value in DOMTree objects.

翻译:从DOM树中获取包含真值(标注数据)的xpath列表

为什么是xpath列表呢?

因为一个字段可以包含多个值,比如作者可以是多个。

1. 参数分析

为了实现这个目标,要传入dom_tree和truth_value,其他参数需要额外解释。

overall_xpath_dict:这是一个在网站范围内收集xpath的容器,它是这样初始化的:

overall_xpath_dict = collections.defaultdict(set)

website:网站名,为了处理特殊网站才传入的

field:字段名,同上

2. 核心逻辑分析


# Iterate all the nodes in the given DOMTree.
for e in dom_tree.iter
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值