信息检索优化与新颖专利检索方法研究
立即解锁
发布时间: 2025-08-22 01:46:16 阅读量: 2 订阅数: 17 


网络时代的个性化标签推荐系统
# 信息检索优化与新颖专利检索方法研究
## 1. 快速最大得分文档检索的积极处理方法
### 1.1 问题背景
大型搜索引擎每秒要处理数千个查询,面对数十亿文档,析取查询和合取查询之间存在巨大的性能差距。为了缩小这一差距,top - k 处理技术应运而生,它能在不遍历所有相关倒排列表的情况下返回最佳的 k 个结果。然而,大多数 top - k 处理算法初始阈值为零,在获得 k 个结果之前速度较慢,过小的初始阈值会使大量文档暂时成为有希望的候选者。
### 1.2 Aggressive MaxScore 算法
#### 1.2.1 算法原理
Aggressive MaxScore(AMaxScore)算法基于文档逐个处理(DAAT)的 MaxScore 方法,通过微调初始 top - k 阈值来进一步减少析取查询的延迟。该算法先进行积极处理,以一个倒排列表的最大得分作为 top - k 阈值,如果返回结果不足,再进行补充处理。
#### 1.2.2 阈值估计
最终阈值 θ 只能通过完整的查询评估获得,因此可以估计一个阈值 θ',保证 θ' ≤ θ,以忽略得分低于 θ' 的文档。在 AMaxScore 中,不严格保证 θ' ≤ θ,但使其尽量接近 θ。如果结果数量不足,说明初始阈值 θ' 可能偏大,需要以更小的初始阈值进行迭代补充处理。
阈值 θ' 可以设置为各种词项上限的累积得分,如词项上限的最小值、最大值、所有词项上限的总和等。例如,若阈值设为某些或所有词项上限的总和,只有包含特定词项集合之外词项的文档才有机会进入 top 结果堆;若阈值设为某个词项的上限,只包含该词项而无其他词项的文档则无法进入 top 结果堆,无需对这类文档进行评分。
### 1.3 实验结果
#### 1.3.1 实验设置
使用 TREC GOV2 数据集,包含约 2520 万文档和约 3280 万个词项,未压缩大小为 426GB。构建倒排索引,每个块包含 128 个文档 ID,使用 PForDelta 压缩,去除停用词并应用 Porter 词干提取器,最终压缩索引大小为 7.57GB。随机选取 10000 个查询,查询词项数量 |q| ≥ 2。实验在 Intel Xeon E5620 处理器(2.40 GHz)、8GB RAM 和 12288KB 缓存的环境下进行,所有方法在 Terrier IR 平台上用 Java 实现,使用 Okapi BM25 作为排名函数,索引预加载到内存,结果取 5 次独立运行的平均值。
#### 1.3.2 实验对比
通过微调阈值 θ',将 AMaxScore 与最先进的 MaxScore 方法进行比较。在积极处理阶段,分别将阈值 θ' 设置为查询词项上限的最小值、最大值和平均值。此外,还进行了将阈值设为所有词项上限总和的实验,并测试了积极处理后重置堆对查询处理性能的影响。
| Algorithm | avg | k = 10 | k = 50 | k = 100 | k = 500 | k = 1000 |
| --- | --- | --- | --- | --- | --- | --- |
| MaxScore_Baseline | 55.7 | 34.8 | 44.2 | 50.3 | 69.4 | 79.6 |
| AMaxScore_Min(θ') | 52.3 | 34.3 | 42.7 | 47.8 | 63.5 | 73.2 |
| AMaxScore_Max(θ') | 47.1 | 32.4 | 40.1 | 44.2 | 55.7 | 63.0 |
| AMaxScore_Avg(θ') | 50.5 | 33.4 | 42.0 | 46.6 | 61.2 | 69.5 |
| AMaxScore_Max(θ')_HR | 48.6 | 33.7 | 41.6 | 45.6 | 58.2 | 63.8 |
| AMaxScore_TooLarge(θ') | 55.5 | 34.2 | 43.4 | 48.8 | 68.7 | 82.7 |
从表中可以看出,所有优化技术都比 MaxScore 基线有了很大改进。对于不同的 k 值,AMaxScore_Max(θ') 表现最佳,平均比 MaxScore 基线提高了 15.4%。AMaxScore_TooLarge(θ') 性能略有下降,因为过大的阈值会使积极处理无效,大部分结果在补充处理中返回,积极处理成为额外成本。AMaxScore_Max(θ')_HR 的改进不如 AMaxScore_Max(θ'),说明将查询结果存储在堆中有助于提高性能。随着 k 值的增加,虽然所有方法的查询处理时间都增加,但 AMaxScore 相对于基线的改进越来越大,在 k = 1000 时,AMaxScore_Max(θ') 比基线快约 20%。
### 1.4 结论
通过微调 top - k 阈值,AMaxScore 算法能够触发积极处理,并在结果不足时进行补充处理。实验结果表明,AMaxScore 显著优于以前的方法,平均提高了 15.4% 的性能,最佳情况下性能提升近 20%,且不牺牲结果质量。
## 2. 基于专利关联的新颖专利检索方法
### 2.1 问题背景
专利检索对于技术研究、发明和创新创业至关重要。现有的专利检索方法通常只能找到相关专利,导致过时的专利经常出现在结果列表中,甚至排在更有价值的专利之前。而企业和研究人员通常只关注前沿技术和研究成果,因此基于新颖性的专利检索变得尤为重要。
### 2.2 创新方法概述
提出一种基于专利广泛关联的新颖专利检索方法,具体包括:
- 引入新的专利新颖性概念,综合考虑时间因素和专利之间的技术关联。
- 提出 Novelty - Rank 算法,用于计算专利的新颖性并进行排名。
- 设计 Update - Rank 算法
0
0
复制全文
相关推荐










