Hadoop实战之mapreduce的WordCount统计单词数目

最新推荐文章于 2025-06-11 10:05:23 发布

原创

最新推荐文章于 2025-06-11 10:05:23 发布 · 1.1w 阅读

54 ·

CC 4.0 BY-SA版权

文章标签：

#Hadoop实战之WordCount统计单词数目 #hadoop实战系列 #wordcount #统计分析单词数据 #手把手学习hadoop

一.Hadoop实战之mapreduce的WordCount统计单词数目

1.前言：

上一篇文章[MapReducer项目结构分析](https://blog.csdn.net/ITBigGod/article/details/80216622) 分析了hadoop的计算模型MapReducer的项目结构，下面就仿照先做一个WordCount统计单词数目的实战，便于理解。

参考本例子前：
1.需要确保搭建好了hadoop集群环境。
2.安装了eclipse开发hadoop的环境。
3.这是关于Hadoop实战之WordCount统计单词数目。

2.实战：

（1）在eclipse中编码：

新建一个MapReducer项目：

打开eclipse，file->other->Map/Reducer Project->Next->Project name创建名为WordCount的项目名，然后创建名为cn.edu.gznc的包，接着在包里面创建三个类，分别是WordCountMapper、WordCountReduce、WordCountJob。
如图所示：
xxxMapper.java
一个map方法.
代码如下：

import java.io.IOException;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;
/* 
 * KEYIN：输入kv数据对中key的数据类型 
 * VALUEIN：输入kv数据对中value的数据类型 
 * KEYOUT：输出kv数据对中key的数据类型 
 * VALUEOUT：输出kv数据对中value的数据类型 
 */  
public class WordCountMapper extends Mapper<LongWritable, Text, Text, IntWritable>{
	  
    /* 
     * map方法是提供给map task进程来调用的，map task进程是每读取一行文本来调用一次我们自定义的map方法 
     * map task在调用map方法时，传递的参数： 
     *      一行的起始偏移量LongWritable作为key 
     *      一行的文本内容Text作为value 
     */  
    @Override  
    protected void map(LongWritable key, Text value,Context context) throws IOException, InterruptedException {  
        //拿到一行文本内容，转换成String 类型  
        String line = value.toString();  
        //将这行文本切分成单词，以空格切分。 
        String[] words=line.split(" "); 
        
        //输出格式<单词，1>  
        for(String word:words){  
            context.write(new T