本文是对原文的翻译,弄懂原文每一句话的意思。
声明:鉴于本人英文一般,有翻译不对的地方望指正,谢谢!
题目
使用点击数据为网页搜索学习深度结构的语义模型
摘要
隐含语义模型,比如LSA,目的是将一个query在语义级别和它相关的文本进行映射,这是基于关键字的匹配做不到的。在本文的研究中,我们利用深度学架构搭建了一系列新的隐含语义模型,将queries和documents映射到一个公共的低维空间。被给的query和一个document的相关性通过它们的距离计算得到。本文提出的深度结构语义模型通过点击数据最大化给定query的被点击document的条件似然估计进行判别训练。为了使我们的模型可被应用于大规模网页搜索,我们使用了Word Hashing技术,它能有效地扩展我们语义模型以处理这类任务中常见的大规模词汇库。新模型在网页文档排序任务中使用实际应用中的数据集进行评估。结果展示我们的模型相比其他隐含语义模型效果最好。
关键词:深度学习,语义模型,点击数据,网页搜索
引言
目前的搜索引擎拉取网页主要依赖搜索queries和文本documents的关键字匹配。然而,在词汇匹配可能并不准确,因为documents和queries中的概念常常使用不同的词汇和语言风格表达。
隐含语义模型(隐含语义分析,LSA)能在语义级别将一个query映射到它相关的documents,这在词汇匹配方法中是做不到的[6,15,2,8,21]。这些隐含语义模型将出现相似内容的不同名词(terms)分到相同语义的分组中,来解决网页文本和搜索语句的语言差异问题。因此,一个query和一个document会在低维语义空间中表示成两个向量,即使它们没有一个相同的名词,也能得到一个很高的相似分数。由LSA模型衍生得到,概率主题模型,如PLSA和LDA,也被提出用来做语义匹配[15,2]。然而,这些模型经常使用一些无监督的方式进行训练,对检索任务使用一个评估度量很不严谨的目标函数。因此,这些模型在网页搜索任务中的效果并没有最初预期的那样好。
最近,在之前提到的隐含语义模型上做了两方面的研究,下面将简要回顾一下:
第一,点击数据由一系列queries和被点击的documents组成。被用来语义建模消除搜索queries和网页documents的语言差异[9,10]。例如,Gao等人[10]提出双语主题模型(BLTMs)和线性判别映射模型(DPMs)在语义级别上query-document匹配的应用。这些模型使用点击数据训练,专门处理document排序任务。更具体地,BLTM是一个生成式模型,要求query和它的点击documents不仅仅在主题上共享相同的分布,而且在每个主题上分配包含相似的词组。相反,DPM是通过S2Net算法[26]学习的模型,该算法遵循[3]中的学习-排序的这种范式。在queris和documents的term向量映射到低维语义空间的concept向量之后,query和它被点击的document之间的向量距离比query和它没有被点击的document之间的向量距离更小。高等人[10]表示在文本排序任务中,BLTM和DPM的效果比无监督隐含语义模型(LSA、PLSA)更好。然而,尽管使用点击数据,BLTM的训练是为了最大化log最大似然,这在文本排序任务评估中不是最优的。另一方面,DPM的训练涉及到大规模的矩阵计算,这些矩阵大小随着词汇的增长而快速增长,在一个网页搜索任务中,这可能是百万级别的量。为了使得训练事件可以接受,词汇被大幅删减。虽然词汇量变小使得模型可以被训练,但这已经不能得到最优的性能。
另一方面的研究,Salakhutdinov和Hinton使用深度自动编码器扩展语义建模[22]。他们证明了嵌入在query和document中的分层语义结构可以通过深度学习提取。这个性能优于常规的LSA[22]。然而,他们使用的深度学习方法仍然是采用无监督学习方法,模型参数的优化是为了documents的重建,而不是为了区分给定query的相关documents和不相关的documents。因此,深度学习模型并没有显著优于基于关键字匹配的基线检索模型。此外,语义哈希模型同样面临大规模矩阵计算的问题,我们将在本文展示学习带有大规模词汇表的语义模型在现实的Web搜索任务中获得良好的结果是至关重要的。
本文研究是在上面提到两个方面研究的基础上进行扩展的。我们提出了网页搜索的深度结构的语义模型(DSSM)。更具体地,我们最好的模型使用深度神经网络(DNN)为给定的query排序一系列documents。如下:第一非线性映射将query和documents映射到共同的语义空间。然后,给定query和每个document通过计算它们共同语义空间下向量的余弦相似度衡量相关性。神经网络模型使用点击数据进行判别训练,即给定query的document被点击的条件似然估计最大化。这不同于之前提到的使用无监督方式训练的隐含语义模型。我们的模型直接优化网页document排序,因此能得到最优的效果。此外,为了处理大规模词汇,我们提出word hashing方法。通过此方法可以将queries或者documents的高维term向量映射成低维的基于n-gram的letter向量。在我们的实验中表明,在语义模型中添加这个额外的表示层,word hashing使我们能够有判别式地学习具有大词汇表的语义模型,这对网页搜索是必不可少的。我们在网页document排序任务中使用真实的数据来评估模型。结果显示我们的模型最优,并在NDCG@1中得到2.5-4.3%的提升。
文章剩下的章内容,章节2回归相关工作,章节3描述我们用于网页搜索的DSSM模型。章节4展示了相关实验。章节5文章总结。
相关工作
我们的工作是基于最近两个用于信息检索(information retrieval,IR)的隐含语义模型研究的扩展。第一个是以有监督的方法利用点击数据学习隐含语义模型[10]。第二个是深度学习方法语义建模的介绍。
2.1 隐含语义模型和点击数据的使用
用于query-document匹配的隐含语义模型在信息检索领域已经是长期以来的研究课题。流行的模型可以被分为两大类,线性映射模型和生成式主题模型,我们将一一介绍。
信息检索最为有名的线性映射模型是LSA[6]。通过使用document-term矩阵的SVD降维,一个document(或者query)可以被映射到低维的concept向量D^=ATD\hat \mathbf{D}= \mathbf A^T \mathbf DD^=ATD,其中A\mathbf AA是映射矩阵。在文本搜索中,document(D\mathbf DD)和query(Q\mathbf QQ)的相关性分数可以合理地被认为是它们concept向量(Q^和D^\hat \mathbf Q和\hat \mathbf DQ^和D^)余弦相似分数:simA(Q,D)=Q^TD^∣∣Q^∣∣∣∣D^∣∣ (1)sim_{\mathbf A}(\mathbf Q, \mathbf D)=\frac{\hat \mathbf Q^T \hat \mathbf D}{||\hat \mathbf Q||||\hat \mathbf D||}\space\space\space\space(1)simA(Q,D)=∣∣Q^∣∣∣∣D^∣∣Q^TD^ (1) 除了隐含语义模型,使用被点击query-document对训练的转移模型为语义匹配提供可选择方法[9]。不同于隐含语义模型,基于转移的方法直接学习document和query之间的转移关系。最近的研究表明,给定大量的点击数据去训练,该方法能取得很好的效果[9,10]。在章节4中我们也将此方法和我们的模型进行对比。
2.2 深度学习
最近,深度学习方法被成功应用于各种语言、信息检索任务[1,4,7,19,22,23,25]。通过研究深度学习结构,深度学习技术可以从训练数据中发现对任务有用的不同抽象级别中隐含的结构和特征。在[22]中,Salakhutdinov和Hinton使用深度网络(auto-encoder,自动编码器)扩展LSA模型,然后去发现嵌入在query和和document中的分层语义结构。他们提出了一个语义哈希(SH)方法,该方法利用从深度自动编码器中学习到的bottleneck特征进行信息检索。这些深度模型训练分为两个阶段:第一,生成式模型(如被限制的玻尔兹曼机)学习document的term向量到低维语义concept向量的层到层之间的映射。第二,模型参数优化是通过最小化document原始的term向量和重构后的term向量之间的交叉熵误差。中间层激活作为特征(如bottleneck)被用于文档排序。他们的评估展示了SH在文本检索任务中的效果由于LSA。然而,SH有两个问题,并且比基于检索模型(如使用TF-IDF term权重的余弦相似性)的标准词汇匹配效果差。第一个问题是模型参数优化是为了文本term向量的重构,而不是为了从给定query不相关的documents中区分相关的documents。第二,为了使计算成本可控,documents的term向量仅仅有最为频繁的2000个单词组成。在下一个章节,我们将介绍我们的模型如何解决这两个问题。
用于网页搜索的深度结构语义模型
3.1DNN用于计算语义特征
我们扩展典型的DNN架构用于将未处理的文本特征映射到语义空间中的特征,如图1所示。DNN的输入(未处理文本特征)是高维的term向量,如未归一化的query或document的term原始计数,DNN的输出是一个映射在低维语义特征空间中的concept向量。DNN模型被用来网页排序如下步骤:1)将term向量映射成相应的语义concept向量;2)计算document和query的concept向量余弦相似度作为它们的相关性分数。
更正式地,如果我们用xxx表示输入的term向量,yyy表示输入的concept向量。lil_il