摘要:该项目是一个基于Spark的综合实训项目,旨在实现对新浪新闻网数据的实时采集和分析。项目包括数据采集(使用Python和Scrapy框架将新浪新闻数据存入MongoDB)、数据转存(使用Scala将数据从MongoDB实时导入HDFS)、数据分析与存储(使用Spark Streaming对HDFS上的数据进行实时统计并存储到MySQL)、以及数据可视化(使用Python绘制并上传分析结果到Web端)。报告详细描述了每个步骤的功能设计、实现步骤、源码实现和运行截图。
关键词:Scrapy数据采集 实时分析 Spark Scala HDFS Spark Streaming MongoDB MySQL 数据可视化
(篇幅受限)详细内容可下载文档查看!!!
目录:
1.3.4. 数据分析与存储(spark streaming)
1.1概述(5分)
1.1.1 训练要点(1分)
回顾并熟练使用python进行数据采集;
掌握scala的使用,将数据从mongo采集到hdfs;
熟练掌握使用spark streaming实现对hdfs目录监测并完成数据分析与处理;
熟练spark的使用,将分析结果存储到mysql;
训练数据据的可视化,将mysql的数据取出并完成可视化。
1.1.2 需求说明(2分)
本实训充许同学们采集各类题材数据,包括并不限于:商品、音乐、新闻、房产、书籍、招聘;
本实训要实现的功能是通过同学采集某类题材数据,实时采集题材数据到mongodb, 再从mongodb将所有同学采集的同题材数据采集hdfs,然后实现该类数据的实时流分析,对分析结果进行存储,然后对mysq中数据实时可视化。
1.1.3 实现步骤(2分)
数据采集:使用scrapy框架实现新闻题材网站的数据采集,存入mongo数据库
数据转存:scala实时采集题材数据从mongo到hdfs
数据分析:启动Spark Streaming监控hdfs目录,分析统计数据
数据存储:使用spark将统计结果转存到mysql中
数据可视:使用python将mysql的结果数据每隔几秒显示出来并更新到web上