MapReduce读取Mysql统计分析再将结果写入mysql中供动态可视化

MapReduce读取Mysql统计分析再将结果写入mysql中供动态可视化

1.前言

最近做一个小项目,其中一个功能是,使用hadoop的MapReduce程序来读取Mysql数据库的某表数据,然后MR进行类别统计,然后再将统计结果写入mysql的另一张表中,最后使用jsp页面调用Echarts读取数据库来动态可视化结果。

先上一张效果图:
最终效果图
本篇先介绍MapReduce读取Mysql统计分析再将结果写入mysql中。
另一篇则是web项目中使用jsp调用Echarts读取数据库来动态可视化结果。

2.MapReduce读取Mysql

搜编百度,都没有一篇完整的mapreduce读取mysql数据,统计分析,最后写入mysql的文章。(so,是不是要点个关注?)

本机环境:

  • centos6.9 64x
  • mysql5.5
  • hadoop2.7
  • eclipse4.5
  • echarts

2.1、建立数据库表:

在mysql中新建了一个数据库test,然后在test中新建了两张表,分别叫mptest,xieru表。

建表语句:

-- MySQL dump 10.13  Distrib 5.5.55, for Linux (x86_64)
--
-- Host: localhost    Database: test
-- -----------------------zoutao-------------------------------
-- Server version	5.5.55-log

DROP TABLE IF EXISTS `mptest`;
CREATE TABLE `mptest` (
  `id` varchar(30) NOT NULL DEFAULT '',
  `name` varchar(255) DEFAULT NULL,
  `txt` varchar(255) DEFAULT NULL,
  PRIMARY KEY (`id`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8;

LOCK TABLES `mptest` WRITE;
INSERT INTO `mptest` VALUES ('1','zhangsan','javascript'),('2','lisi','C'),('3','wangwu','C++'),('4','chenliu','java'),('5','zoutao5','java'),('6','zoutao','python');
UNLOCK TABLES;

DROP TABLE IF EXISTS `xieru`;
CREATE TABLE `xieru` (
  `word` varchar(255) DEFAULT NULL COMMENT 'leibie',
  `count` int(11) DEFAULT NULL COMMENT 'shul'
) ENGINE=InnoDB DEFAULT CHARSET=utf8 COMMENT='xie';

如图:
在这里插入图片描述
xieru表:在这里插入图片描述
最后我们的数据库里面:
在这里插入图片描述
为了防止有数据,我们先清空一下的xieru表:

truncate table xieru;	
select * from xieru;

如图:在这里插入图片描述

2.2、创建mapreduce程序

打开位于liunx系统上的eclipse,创建一个mapreduce项目:
在这里插入图片描述
随便取名字吧,能看懂这个文章的也不可能不会这些操作,我就不写了。
项目创建完成以后:大概是这样的
在这里插入图片描述

2.3、导入mysql的驱动jar包

安装了mysql的,里面有个驱动包。没有的你就百度自行下载一个就是了。
mysql-connector-java-x.x.xxx.jar,把这个jar包导入到刚才新建的mp程序里面去。

在这里插入图片描述
开始写代码,太墨迹了。

2.4、创建实体类

新建包,新建MyDBWritable.java。

MyDBWritable :

package com.xfbshop;

import org.apache.hadoop.io.Writable;
import org.apache.hadoop.mapred.lib.db.DBWritable;
import java.io.DataInput;
import java.io.DataOutput;
import java.io.IOException;
import java.sql.PreparedStatement;
import java.sql.ResultSet;
### 使用HadoopMapReduce进行数据分析 在Hadoop环境中执行数据分析通常涉及几个关键步骤,首先是利用MapReduce框架来处理大量数据。MapReduce是一种编程模型,用于大规模数据集的并行运算。 #### 数据分析流程 为了准备数据以便于后续分析,在数据收集之后会进入数据预处理阶段。此阶段包括但不限于数据清洗、处理缺失值以及将数据格式化为适合上传至Hadoop的结构化形式[^1]。一旦这些准备工作完成,就可以通过编写自定义的Mapper和Reducer程序来进行具体的数据分析工作。 对于Python开发者来说,可以通过`mrjob`库轻松创建基于Python的MapReduce作业。下面是一个简单的例子展示如何统计单词频率: ```python from mrjob.job import MRJob class WordCount(MRJob): def mapper(self, _, line): words = line.split() for word in words: yield (word.lower(), 1) def reducer(self, key, values): yield (key, sum(values)) if __name__ == '__main__': WordCount.run() ``` 这段代码展示了基本的Word Count算法实现方式,其中mapper函数负责分割输入文本并将每个词映射成键值对;reducer则汇总相同关键词的数量总和。 #### 结果可视化的方法与工具 当完成了MapReduce计算后,下一步就是呈现结果给最终用户或其他应用程序消费。常见的做法是从Hive表中提取聚合后的统计数据,并将其导入支持图形界面的应用程序中做进一步探索性研究或报告生成。例如,可以使用Apache Zeppelin这样的交互式笔记本环境来加载来自Hive的结果集,并借助内置图表功能快速构建直观易懂的数据视图[^2]。 另外一种流行的选择是采用开源BI平台如Superset或者Grafana,它们提了丰富的插件生态系统用来连接各种数据库源(包括Hive),并且拥有强大的前端编辑器帮助定制仪表板布局及样式设置。
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

江湖一点雨

原创不易,鼓励鼓励~~~

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值