【spark】新浪新闻网数据采集实时分析项目

摘要:该项目是一个基于Spark的综合实训项目,旨在实现对新浪新闻网数据的实时采集和分析。项目包括数据采集(使用Python和Scrapy框架将新浪新闻数据存入MongoDB)、数据转存(使用Scala将数据从MongoDB实时导入HDFS)、数据分析与存储(使用Spark Streaming对HDFS上的数据进行实时统计并存储到MySQL)、以及数据可视化(使用Python绘制并上传分析结果到Web端)。报告详细描述了每个步骤的功能设计、实现步骤、源码实现和运行截图。

关键词:Scrapy数据采集  实时分析  Spark  Scala  HDFS  Spark Streaming MongoDB  MySQL  数据可视化

(篇幅受限)详细内容可下载文档查看!!!

目录:

1.1. 概述

1.1.1. 训练要点

1.1.2. 需求说明

1.1.3. 实现步骤

1.2. 总体设计

1.2.1. 总体流程

1.2.2. 系统功能结构

1.2.3. 运行环境

1.3. 详细设计

1.3.1. 库表设计

1.3.2. 数据采集

1.3.3. 数据存储(mongodb->hdfs)

1.3.4. 数据分析与存储(spark streaming)

1.3.5. 数据可视

1.1概述(5分)

1.1.1 训练要点(1分)

回顾并熟练使用python进行数据采集;

掌握scala的使用,将数据从mongo采集到hdfs;

熟练掌握使用spark streaming实现对hdfs目录监测并完成数据分析与处理;

熟练spark的使用,将分析结果存储到mysql;

训练数据据的可视化,将mysql的数据取出并完成可视化。

1.1.2 需求说明(2分)

本实训充许同学们采集各类题材数据,包括并不限于:商品、音乐、新闻、房产、书籍、招聘;

本实训要实现的功能是通过同学采集某类题材数据,实时采集题材数据到mongodb, 再从mongodb将所有同学采集的同题材数据采集hdfs,然后实现该类数据的实时流分析,对分析结果进行存储,然后对mysq中数据实时可视化。

1.1.3 实现步骤(2分)

数据采集:使用scrapy框架实现新闻题材网站的数据采集,存入mongo数据库

数据转存:scala实时采集题材数据从mongo到hdfs

数据分析:启动Spark Streaming监控hdfs目录,分析统计数据

数据存储:使用spark将统计结果转存到mysql中

数据可视:使用python将mysql的结果数据每隔几秒显示出来并更新到web上

1.2 总体设计(20分)

1.2.1总体流程(10分

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值