hadoop命令大全

### Hadoop命令大全详解 #### 0. 概述 Hadoop是一款开源软件框架,用于分布式存储和处理大型数据集。所有的Hadoop命令都是通过`bin/hadoop`脚本触发的。如果不指定任何参数直接运行`hadoop`脚本,则会列出所有可用命令及其简短描述。 #### 1. 常规选项 这些选项被多个Hadoop命令所共享,例如`dfsadmin`、`fs`、`fsck`和`job`等。为了支持这些常规选项,应用程序需要实现`Tool`接口。 | 命令选项 | 描述 | | --- | --- | | `-conf <configuration file>` | 指定应用程序的配置文件。 | | `-D <property=value>` | 为指定的属性设置特定的值。 | | `-fs <local|namenode:port>` | 指定名称节点(Namenode)。 | | `-jt <local|jobtracker:port>` | 指定任务跟踪器(JobTracker),仅适用于`job`命令。 | | `-files <逗号分隔的文件列表>` | 指定要复制到MapReduce集群的文件列表,仅适用于`job`命令。 | | `-libjars <逗号分隔的jar列表>` | 指定要添加到类路径中的jar文件列表,仅适用于`job`命令。 | | `-archives <逗号分隔的archive列表>` | 指定要解压到计算节点的档案文件列表,仅适用于`job`命令。 | #### 2. 用户命令 这部分命令主要面向Hadoop集群的最终用户。 ##### 2.1 archive 此命令用于创建一个Hadoop档案文件。 **命令格式**: ``` hadoop archive –archiveName <name> <src>* <dest> ``` **命令选项**: - `-archiveName <name>`: 指定创建的档案文件的名字。 - `<src>`: 文件系统的路径,可以包含通配符。 - `<dest>`: 存储档案文件的目录。 ##### 2.2 distcp 此命令用于在不同文件系统之间进行递归复制文件或目录。 **命令格式**: ``` hadoop distcp <srcurl> <desturl> ``` **命令选项**: - `<srcurl>`: 源文件或目录的URL。 - `<desturl>`: 目标文件或目录的URL。 ##### 2.3 fs 此命令提供了对Hadoop文件系统的基本操作。 **命令格式**: ``` hadoop fs [GENERIC_OPTIONS] [COMMAND_OPTIONS] ``` 其中`[COMMAND_OPTIONS]`可以是以下命令之一: - `ls`: 列出目录内容。 - `put`: 将本地文件上传到HDFS。 - `get`: 从HDFS下载文件到本地。 - `rm`: 删除文件或目录。 - `mkdir`: 创建目录。 - `mv`: 移动或重命名文件/目录。 - `cat`: 显示文件内容。 - `tail`: 显示文件末尾部分内容。 ##### 2.4 fsck 此命令用于检查HDFS文件系统的完整性。 **命令格式**: ``` hadoop fsck [GENERIC_OPTIONS] <path> [-move|-delete|-openforwrite] [-files|-blocks|-locations|-racks] ``` **命令选项**: - `<path>`: 起始检查目录。 - `-move`: 将损坏的文件移动到`/lost+found`目录。 - `-delete`: 删除损坏的文件。 - `-openforwrite`: 显示当前处于写入状态的文件。 - `-files`: 显示正在检查的文件。 - `-blocks`: 显示块信息。 - `-locations`: 显示每个块的位置信息。 - `-racks`: 显示数据节点的网络拓扑结构。 ##### 2.5 jar 此命令用于运行打包好的jar文件。 **命令格式**: ``` hadoop jar <jar> [mainClass] args ``` **命令选项**: - `<jar>`: 包含用户MapReduce代码的jar文件。 - `[mainClass]`: 主类名。 - `args`: 传递给主类的参数。 ##### 2.6 job 此命令用于监控和管理运行中的MapReduce作业。 **命令格式**: ``` hadoop job [GENERIC_OPTIONS] [COMMAND_OPTIONS] ``` 其中`[COMMAND_OPTIONS]`可以是以下命令之一: - `list`: 列出当前活动的所有作业。 - `history`: 查看已完成的作业历史记录。 - `counter`: 显示作业计数器。 - `status`: 查询作业的状态。 - `kill`: 终止一个正在运行的作业。 - `submit`: 提交一个新的作业。 #### 3. 管理命令 这部分命令主要用于Hadoop集群的管理维护工作。 ##### 3.1 balancer 此命令用于平衡DataNode之间的数据分布。 **命令格式**: ``` hadoop balancer [GENERIC_OPTIONS] [-threshold <percentage>] [-movesize <size>] ``` **命令选项**: - `-threshold <percentage>`: 设置负载均衡阈值百分比。 - `-movesize <size>`: 设置每次移动的数据大小。 ##### 3.2 daemonlog 此命令用于获取DataNode的日志。 **命令格式**: ``` hadoop daemonlog [GENERIC_OPTIONS] -level <level> -nodes <node> ``` **命令选项**: - `-level <level>`: 设置日志级别。 - `-nodes <node>`: 指定DataNode。 ##### 3.3 datanode 此命令用于管理和控制DataNode进程。 **命令格式**: ``` hadoop datanode [GENERIC_OPTIONS] ``` **命令选项**: - `start`: 启动DataNode进程。 - `stop`: 停止DataNode进程。 - `info`: 显示DataNode的信息。 ##### 3.4 dfsadmin 此命令提供了对HDFS集群的各种管理操作。 **命令格式**: ``` hadoop dfsadmin [GENERIC_OPTIONS] [COMMAND_OPTIONS] ``` 其中`[COMMAND_OPTIONS]`可以是以下命令之一: - `report`: 显示集群报告。 - `saveNamespace`: 持久化元数据。 - `rollback`: 回滚到上一个检查点。 - `setSafeMode`: 设置安全模式。 - `refreshNodes`: 刷新节点列表。 - `refreshSuperUserGroupsConfiguration`: 刷新超级用户组配置。 ##### 3.5 jobtracker 此命令用于管理和控制JobTracker进程。 **命令格式**: ``` hadoop jobtracker [GENERIC_OPTIONS] ``` **命令选项**: - `start`: 启动JobTracker进程。 - `stop`: 停止JobTracker进程。 - `info`: 显示JobTracker的信息。 ##### 3.6 namenode 此命令用于管理和控制NameNode进程。 **命令格式**: ``` hadoop namenode [GENERIC_OPTIONS] ``` **命令选项**: - `start`: 启动NameNode进程。 - `stop`: 停止NameNode进程。 - `info`: 显示NameNode的信息。 ##### 3.7 secondarynamenode 此命令用于管理和控制Secondary NameNode进程。 **命令格式**: ``` hadoop secondarynamenode [GENERIC_OPTIONS] ``` **命令选项**: - `start`: 启动Secondary NameNode进程。 - `stop`: 停止Secondary NameNode进程。 - `info`: 显示Secondary NameNode的信息。 ##### 3.8 tasktracker 此命令用于管理和控制TaskTracker进程。 **命令格式**: ``` hadoop tasktracker [GENERIC_OPTIONS] ``` **命令选项**: - `start`: 启动TaskTracker进程。 - `stop`: 停止TaskTracker进程。 - `info`: 显示TaskTracker的信息。 通过以上详细介绍,我们可以看到Hadoop提供了丰富的命令来满足用户对大数据存储和处理的需求。无论是日常的文件操作还是高级的集群管理,Hadoop都能提供相应的工具和支持。

- 粉丝: 0
我的内容管理 展开
我的资源 快来上传第一个资源
我的收益
登录查看自己的收益我的积分 登录查看自己的积分
我的C币 登录后查看C币余额
我的收藏
我的下载
下载帮助


最新资源
- 网络信息安全B作业题和考试复习题.doc
- 互联网背景下如何提高图书编校质量.docx
- tcpip协议与网络管理标准教程.doc
- 大数据背景下高校思想政治教育过程融入路径探究.docx
- 云南基层干部教育培训信息化建设应用研究教育文档.doc
- 团购网站Groupon及中国电子商务发展分析.doc
- 外贸建站-营销型网站建设.doc
- 斩波电路Matlab仿真电力电子技术课程设计.doc
- 互联网+大连海参养殖新模式探究.docx
- python-游戏数据搜索引擎-基于Python开发的游戏信息检索系统-整合多平台游戏数据-提供快速搜索与详细展示功能-支持用户自定义筛选与收藏-适用于游戏爱好者与开发者查询游戏资.zip
- 人工智能双面观.docx
- 基于欧氏距离的K均方聚类算法研究与应用.docx
- 对安徽江苏山东网络电视台的比较分析.docx
- JavaEEJsp图书系统实用技术文档.doc
- 网络信息安全项目教程习题-解答.doc
- 物联网技术在现代种植业中的应用.docx


