数据类型驱动的属性对齐与产品重复检测框架及语义数据并行查询方法
立即解锁
发布时间: 2025-08-17 00:37:44 阅读量: 1 订阅数: 5 

### 数据类型驱动的属性对齐与产品重复检测框架及语义数据并行查询方法
#### 1. 数据类型驱动的属性对齐框架
在属性对齐过程中,需要计算属性的关键得分(Key Score)和值得分(Value Score),进而得到属性得分(Property Score)。
- **关键得分**:使用 k - shingles Jaccard 相似度作为词汇相似度度量。
- **值得分**:
- **布尔值**:先计算值中 “Yes” 出现的比例,然后用 1 减去这些比例差值的绝对值,得到值得分。
- **定量、度量或复合类型**:使用 Mann - Whitney U 检验。当值为定量类型时,使用数值块进行检验;当值为度量值且度量块单位相同时,对数值块进行检验;当值为复合类型时,同样使用数值块进行检验。值得分等于 Mann - Whitney U 检验的 p 值。
- **属性得分**:是关键得分和值得分的加权平均值,计算公式如下:
\[
\text{Property score} = (1 - \theta) \times \text{Key score} + \theta \times \text{Value score}
\]
其中,\(\theta\) 是训练得到的权重。如果属性得分高于某个训练阈值,则认为属性匹配。
#### 2. 产品重复检测框架
产品重复检测框架包含 3 种启发式方法和 2 个匹配步骤。
- **启发式方法**:
- **店铺启发式**:假设同一店铺内不存在重复产品,避免大量不必要的比较。
- **品牌启发式**:假设同一品牌下不存在重复产品。通过扫描产品属性,统计属性值中包含维基百科上知名电视品牌列表中品牌的次数,出现次数最多的属性键被标记为品牌键,不在列表中但属于该品牌键的品牌会被添加到品牌列表中。算法不再比较品牌不同的产品。
- **屏幕尺寸启发式**:假设屏幕尺寸不同的产品不可能是重复产品。大多数产品标题中包含屏幕尺寸信息(数字后跟 “(inch)” 符号),可轻松提取。不包含屏幕尺寸信息的产品仍参与比较,而屏幕尺寸不同的产品不再比较,以减少不必要的比较次数和算法运行时间。
- **匹配步骤**:
- **标题得分**:计算比较产品标题的相似度得分。先去除标题中的品牌、“refurbished” 和 “open box:” 等无意义词汇,然后使用与属性对齐框架相同的 k - shingles Jaccard 相似度度量计算得分。
- **属性得分**:为比较的两个产品中具有相同键或通过属性匹配算法匹配的属性计算得分。每个匹配属性对的得分根据属性类型进行加权,最后将加权得分汇总并归一化,使总属性得分范围在 0 到 1 之间,计算公式如下:
\[
\text{Property score} = \frac{\sum_{p_i = p_j} \text{score}(p_i, p_j) \times w_i}{\text{Number of times } p_i \text{ matches } p_j}
\]
其中,\(p_i\) 是属性 \(i\),\(w_i\) 是依赖于两个属性类型的权重。
0
0
复制全文
相关推荐










