【spark】新浪新闻网数据采集实时分析项目

多吃青菜吧

已于 2024-11-06 10:55:33 修改

阅读量2.1k

点赞数 50

CC 4.0 BY-SA版权

文章标签： spark 大数据分布式 mongodb hdfs

于 2024-06-28 18:30:47 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_54735966/article/details/140050458

摘要：该项目是一个基于Spark的综合实训项目，旨在实现对新浪新闻网数据的实时采集和分析。项目包括数据采集（使用Python和Scrapy框架将新浪新闻数据存入MongoDB）、数据转存（使用Scala将数据从MongoDB实时导入HDFS）、数据分析与存储（使用Spark Streaming对HDFS上的数据进行实时统计并存储到MySQL）、以及数据可视化（使用Python绘制并上传分析结果到Web端）。报告详细描述了每个步骤的功能设计、实现步骤、源码实现和运行截图。

关键词：Scrapy数据采集 实时分析 Spark Scala HDFS Spark Streaming MongoDB MySQL 数据可视化

（篇幅受限）详细内容可下载文档查看！！！

目录：

1.1.1. 训练要点

1.1.2. 需求说明

1.1.3. 实现步骤

1.2. 总体设计

1.2.1. 总体流程

1.2.2. 系统功能结构

1.2.3. 运行环境

1.3. 详细设计

1.3.1. 库表设计

1.3.2. 数据采集

1.3.3. 数据存储(mongodb->hdfs)

1.3.4. 数据分析与存储(spark streaming)

1.3.5. 数据可视

1.1概述（5分）

1.1.1 训练要点(1分)

回顾并熟练使用python进行数据采集；

掌握scala的使用，将数据从mongo采集到hdfs；

熟练掌握使用spark streaming实现对hdfs目录监测并完成数据分析与处理；

熟练spark的使用，将分析结果存储到mysql；

训练数据据的可视化，将mysql的数据取出并完成可视化。

1.1.2 需求说明(2分)

本实训充许同学们采集各类题材数据,包括并不限于:商品、音乐、新闻、房产、书籍、招聘；

本实训要实现的功能是通过同学采集某类题材数据，实时采集题材数据到mongodb, 再从mongodb将所有同学采集的同题材数据采集hdfs，然后实现该类数据的实时流分析，对分析结果进行存储，然后对mysq中数据实时可视化。

1.1.3 实现步骤(2分)

数据采集：使用scrapy框架实现新闻题材网站的数据采集，存入mongo数据库

数据转存：scala实时采集题材数据从mongo到hdfs

数据分析：启动Spark Streaming监控hdfs目录，分析统计数据

数据存储：使用spark将统计结果转存到mysql中

数据可视：使用python将mysql的结果数据每隔几秒显示出来并更新到web上

1.2 总体设计(20分)

1.2.1总体流程(10分

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。