基于语言模型的时间信息索引
1. 引言
大多数信息检索(IR)系统提供根据特定语法标准搜索文档的功能。用户可以以查询的形式表达信息需求,查询通常由一组单词或短语(即查询词)组成,这些查询词规定了相关文档中应出现或不应出现的内容,查询词之间还可以通过布尔运算符连接。
这种基于算法定义相关性的方法存在局限性。文档与信息的相关性不仅取决于文档和查询本身,还受用户知识、正在执行的任务或使用的设备等因素影响,但为简化起见,这里暂不考虑这些因素,仅专注于索引问题。
在语法层面比较查询词和文档(实际上是文档的索引表示)时,可能会通过字符串匹配等方式进行。然而,这种方法受限于术语歧义问题,一个概念可能有多个语法表示,一个术语也可能表示多个概念。为解决这个问题,可以对查询词和索引词进行词干提取或词形还原处理,有时还会借助同义词词典甚至在本体层面进行比较。这种方法虽然并非最优,也不足以解决很多类型的查询,但能满足大多数常见信息需求,因此在许多商业解决方案中得到了成功应用。
但上述方法在解决包含时间标准的查询时并不足够。例如,文档中提到“2006年8月16日”,而查询需求是“去年第三季度的所有文档”,从语法上看,查询和文档没有关联,基于同义词或概念的语义比较也会得出零相关性的结果,但实际上该文档至少部分相关,因为2006年8月16日属于去年第三季度。
这种局限性主要源于索引过程。在信息检索中,文档索引是文档重要特征的简化且可机器处理的表示,在检索过程中替代实际文档内容。文档与查询的相关性基于查询与文档索引的比较,而传统上认为重要的特征仅为从文档内容中提取的单词(有时经过词干提取或词形还原),还常伴有它们在文档中的位置和表示重要性的权重。