基于K - 中心点聚类的相似性推荐系统
1. 引言
推荐算法旨在根据各种特征为用户推荐商品和电影,以实现个性化的用户体验。推荐系统会从用户输入中筛选出最相关的属性来处理信息,预测消费者最感兴趣且可能购买的商品。
聚类是将输入点划分为不同的组,使同一组内的点在几何上更接近。根据待聚类数据的可用性,聚类可分为离线聚类和在线聚类。离线聚类时,整个数据集在聚类时是可用的,可使用肘部法则等方法确定合适的聚类数量。而基于聚类的推荐系统通常需要处理在线聚类,因为新用户会不断注册。在线聚类中,待聚类的数据并非一次性全部可用,而是以流的形式接收,因此确定理想的聚类数量比离线聚类更复杂。
K - 中心点聚类是一种无监督聚类算法,可用于对无标签的对象点进行聚类。在K - 中心点聚类中,聚类是基于中心点创建的,每个聚类的中心点位于该聚类的中心,聚类包含所有比其他聚类中心点更接近该中心点的点。基于聚类的推荐可以提高推荐的多样性、一致性和可靠性,并且更擅长处理稀疏的用户偏好矩阵和变化的用户偏好。
2. 现有工作
现代推荐系统主要分为以下三大类:
- 协同过滤系统
- 基于内容的系统
- 混合系统
基于内容的过滤是推荐与用户之前偏好相似的商品,而协同过滤则是为用户提供与他们具有相似特征的其他用户喜欢的商品。但这两种现有方法都有一定的局限性,因此混合系统应运而生,它结合了这两种方法。
不同的研究提出了各种推荐系统的实现方法:
- 有的使用离线(非实时)和在线(实时)组件,在线组件将数据流放入相应的密度网格并更新密度网格的特征向量,离线组件则定期自动调整聚类。但这种方法存在重复聚类的问题,浪