摘 要: 为解决传统的基于矩阵分解协同过滤推荐算法,在大量数据的情况下,单节点计算速度慢以及特征矩阵稀疏 问题,充分对大数据时代下的 Pyspark 大数据处理平台原理及架构进行研究,并对 ALS 协同过滤算法原理研究与其在 Pyspark 平台上的实现推荐系统应用. 实验结果表明,基于 Pyspark 平台的 ALS 算法,通过调节正则化参数为 0. 01、增加 并行化分块计算的块数、减少隐含语义因子的个数,能使推荐算法的 RMSE 最小,并能更快速精准有效推荐给用户他 们感兴趣的商品.
Spark 是用面向函数式变成语言( Scala) 编写的, 并提供了几个交互式的 API. Pyspark 即是 Spark 开发 者为 python 语言开发者提供的 pythonAPI,与 Spark 相 似,PySpark 的中心数据抽象是一个“弹性分布式数据 集”( RDD) ,它只是一个 Python 对象的集合,图 1 给 出了 Pyspark 与 Spark 的关系示意图. 选择 Pyspark 的 原因是对于熟练 Python 的程序员,Python 自身的轻量 级、简单的优势,结合 Spark 的特点,得到很多程序员 的青睐.