1、简介
书接上回,上篇博文中介绍如何安装Hadoop和基本配置,本文介绍Hadoop中分布式文件组件--HDFS,在HDFS中,有namenode、datanode、secondnamenode这三个角色,本文将详细介绍这几个组件是如何进行协作的,以及HDFS常用命令和一些api的使用。
HDFS特点:
- 高容错性:拥有副本机制,提高容错性;
- 适合处理大数据量:能够处理GB、TB、PB级别的数据量;
- 数据传输有延迟:不适合低延时数据访问;
- 不适合大量小文件存储:文件信息都会存储在namenode中,namenode内存空间有限,而且小文件过多会导致磁盘寻址时间长;
- 不支持文件并发写入、修改:只支持串行写,而且只支持追加,不支持修改。
2、HDFS中几个组件的原理及使用
2.1、NameNode(nn)
NameNode是master,是HDFS中的管理者,管理HDFS文件的命令空间、文件副本策略、管理数据块映射信息、处理客户端的读写请求等。存储文件数据块元数据信息,NameNode的默认空间为128G,每个block的元数据信息占用150B。
2.2、DataNode(dn)
datanode是执行NameNode下发的操作命令,存储实际的数据块,执行数据块的读写操作,文件块大小默认是 128Mb ,可通过 dfs.blocksize 参数设置(在 hdfs-site.xml 文件中设置)。
2.3、SecondaryNameNode(2nn)
SecondaryNameNode并非NameNode的热备份,