- 论文:Kim D H, Park C, Oh J, et al. Convolutional Matrix Factorization for Document Context-Aware Recommendation[C]. conference on recommender systems, 2016: 233-240.
- 实现代码:http://dm.postech.ac.kr/ConvMF 【协同过滤+文档建模】
用户对物品评价数据的稀疏性是影响推荐系统质量的主要因素之一。针对稀疏性问题,研究学者已经提出了几种建议,并考虑了辅助信息,提高了评级预测精度。特别是,当评价数据比较稀疏时,基于文档建模的方法context-aware通过额外使用文本数据(如评论、摘要或概要)来提高准确性。然而,由于词语袋模型bag-of-words固有的局限性,它们在有效利用文档的上下文信息方面存在困难,导致对文档的理解较浅。本文提出了一种新的上下文感知推荐模型——卷积矩阵因式分解(convmf),将卷积神经网络(CNN)与概率矩阵因式分解(PMF)相结合。因此,convmf捕获了文档的上下文信息,进一步提高了评级预测的准确性。对三个真实数据集的广泛评估表明,即使在评级数据非常稀疏的情况下,convmf仍显著优于最先进的推荐模型。这个方法还证明convmf成功地捕获了文档中单词的细微上下文差异。
1. 论文背景分析
电子商务服务中用户和物品数量的激增,增加了用户对物品评价数据的稀疏性。最后,这种稀疏性降低了传统协同过滤技术的等级预测精度。为了提高准确性,研究学者先后提出了几种建议,不仅考虑评级信息,还考虑辅助信息,如用户人口统计、社交网络和物品描述文档。最近,基于文档建模方法(如潜在dirichlet分配Latent Dirichlet Allocation, LDA和堆叠去噪自动编码器Stack Denoise Auto-Encoder, SDAE)的方法被提出额外利用物品描述文档(如评论、摘要或概要)。Wang等人提出了协同主题回归Collaborative Topic Regressio, CTR,将主题建模LDA和协同过滤结合在概率方法中, 提出了CTR的变体,并将LDA集成到协同过滤中,以分析具有不同集成方法的物品描述文档。最近,Wang等人提出了将SDAE整合到概率矩阵分解(PMF)中的协同深度学习(CDL),从而在评级预测准确性方面生成更准确的潜在模型。
然而,现有的集成模型并不能完全捕获文档信息。因为现有方法所依赖的词袋模型忽略了文档的上下文信息,如周围的单词和单词顺序。例如,假设在一个文档中给出了以下两句话:“people trust the man.” “people betray his trust finally.” 因为LDA和SDAE认为该文档是一系列判别词汇的bag,它们无法区分“trust”的场景语义。准确地说,尽管“trust”的每一个出现似乎都有几乎相同的含义,但这些词之间有一个微妙的句法差异——分别是动词和名词。文档中的这种细微差别也是深入理解文档的重要因素,进一步的这种理解有助于提高评级预测准确性。为了解决上述问题,作者采用了卷积神经网络(CNN)。CNN在计算机视觉、自然语言处理和信息检索等各个领域表现出很高的性能。CNN通过对成分建模(如局部感受野、共享权重和子采样)有效地捕获图像或文档的局部特征。因此,CNN的使用有助于加深对文档的理解,并产生比LDA和SDAE更好