基于无监督机器学习的改进内容过滤电影推荐系统
立即解锁
发布时间: 2025-08-29 11:35:15 阅读量: 8 订阅数: 17 AIGC 

# 基于无监督机器学习的改进内容过滤电影推荐系统
## 1 相关工作
此前,研究人员已采用不同推荐方法来构建强大的电影推荐系统:
- Z. Wang等人提出了一种基于混合模型的电影推荐系统,利用改进的K - means聚类结合遗传算法对转换后的用户空间进行划分,还使用主成分分析(PCA)数据降维技术来减少电影推荐中的计算复杂度。
- RamniHarbir Singh等人展示了一个使用基于内容的过滤和KNN算法,并结合余弦相似度原理进行推荐的电影推荐系统。
- N. Pradeep等人基于演员、关键词、团队和类型等内容构建电影推荐系统,将这4个属性的总和作为一个主导因素。
- Putra Pandu Adikara等人专注于混合方法,结合基于内容的过滤和协同过滤,采用基于图的模型。
- Yadav Vikash等人借助K - means聚类技术进行聚类,并使用主成分分析进行数据预处理,开发了一个电影推荐系统。
- 之前还提出了一种新的智能推荐系统,将协同过滤(CF)与流行的无监督机器学习算法K - means聚类相结合,利用用户的性别和年龄等人口统计属性创建分段用户档案。
本文提出的新内容推荐系统基于K - means聚类、向量空间建模和基于内容的模型这三个部分。利用隐式用户评分将每个用户分配到特定的聚类中,使用项目的文本特征在向量空间模型中表示数据集,并构建基于内容的模型来为活跃用户推荐Top - N电影。
## 2 提出的工作
### 2.1 整体架构
本文提出了基于内容的K - means聚类算法的电影推荐系统,其架构主要由以下三个功能模块组成:
- K - means聚类模块
- 带有用户档案模块的向量空间模块
- 推荐模块
### 2.2 K - means聚类模块
- **数据处理**:使用Movielens数据集进行测试,每部电影有标题、电影ID和19个类型属性(若电影有特定类型则值为1,否则为0)。计划使用特征选择或特征提取技术减少属性数量,之前的工作发现PCA技术对电影推荐结果有影响,它可在算法因输入维度太高而变慢时进行降维。应用PCA技术后,仅使用10个PCA电影特征,以减少系统占用的内存。
- **K - means算法原理**:K - means聚类是一种简单且流行的无监督机器学习算法,它在数据集中寻找固定数量(k)的聚类。具体来说,K - means算法确定k个质心,计算每个对象与每个聚类中心的距离,将其分配到最近的聚类,更新所有聚类的平均值,重复此过程直到准则函数收敛。
- **相似度计算**:使用基于欧几里得相似度方法的K - means聚类算法。欧几里得距离是几何距离,对于有i个定量变量的矩阵X,两个特征x1和x2之间的欧几里得距离d计算公式如下:
\[d(x1, x2) = \sqrt{\sum_{i = 1}^{n}(x_{1n}, x_{2n})^2}\]
将10个PCA组件输入K - means算法,输出将电影数据集分类到特定数量的聚类中。
### 2.3 向量空间模型和用户档案
#### 2.3.1 引入电影属性的原因
协同过滤算法易受评分矩阵数据稀疏性的影响,因为它仅基于用户评分的相似性来衡量用户之间的相似度,忽略了电影对相似度计算的影响。本文在相似度计算中引入电影属性,以提供更多信息并减轻数据稀疏性的影响。
#### 2.3.2 TF - IDF计算
通过分析电影标题等文本特征获取电影属性,这些属性作为推荐因素,并用于在向量空间模型中描述文档。TF - IDF是描述文档最常用的加权方法,由词频(TF)和逆文档频率(IDF)组成:
- **词频(TF)**:词频是术语Ti在文档Dj中出现的次数,计算公式为:
\[TF(T_{ij}) = \frac{N(T_i, D_j)}{N(D_j)}\]
其中,$N(T_i, D_j)$是术语Ti在文档Dj中出现的次数,$N(D_j)$是文档Dj中的总术语数。
- **逆文档频率(IDF)**:文档频率是包含特定术语Ti的文档U的数量,用$N(U, T_i)$表示。逆文档频率与术语Ti在所有文档中的出现次数成反比,计算公式为:
\[IDF(T_i) = \log(\frac{N(U)}{N(U, T_i)})\]
其中,$N(U)$是文档总数,$IDF(T_i)$随$N(U, T_i)$的增加而减小。
- **归一化后的TF - IDF**:为减少停用词的影响,对每个变量进行归一化,归一化后TF - IDF的计算公式为:
\[TF - IDF(T_{i,j}) = TF(T_{i,j}) \times \log(\frac{N(U)}{N(U, T_i)})\]
#### 2.3.3 用户档案构建
用户档案模块的主要任务是为每个用户构建基于一组参
0
0
复制全文
相关推荐









