运行Hadoop自带的wordcount程序步骤
时间: 2025-01-25 13:09:54 浏览: 55
运行Hadoop自带的wordcount程序步骤如下:
1. **准备工作**:
- 确保Hadoop集群已经正确安装并启动。
- 确保HDFS(Hadoop Distributed File System)已经启动。
2. **创建输入文件**:
- 在本地创建一个文本文件,例如`input.txt`,并在其中输入一些文本内容。
3. **将输入文件上传到HDFS**:
```bash
hadoop fs -mkdir -p /user/hadoop/input
hadoop fs -put /local/path/to/input.txt /user/hadoop/input/
```
4. **运行wordcount程序**:
- 使用Hadoop自带的wordcount示例程序来处理上传的文本文件。
```bash
hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-*.jar wordcount /user/hadoop/input /user/hadoop/output
```
5. **查看输出结果**:
- 处理完成后,输出结果会存储在HDFS的`/user/hadoop/output`目录下。
```bash
hadoop fs -cat /user/hadoop/output/part-r-00000
```
6. **清理输出目录(可选)**:
- 如果需要重新运行wordcount程序,需要先删除之前的输出目录。
```bash
hadoop fs -rm -r /user/hadoop/output
```
通过以上步骤,你可以成功运行Hadoop自带的wordcount程序,并对文本文件进行词频统计。
阅读全文
相关推荐






