架构
主从架构
优势
分布式存储,@无限扩容
元数据记录,@快速查找
记录文件名称,大小,位置,在哪个机器副本上
分块
副本备份,@数据安全
简介
全称:Hadoop Distributed File System。hadoop分布式文件系统
设计目的
大文件
数据流试访问
一次写入,多次读取。不太支持,改
低成本部署
但是高延迟
主从架构
HDFS集群是标准的master/slave主从架构集群
集群有一个NameNode 和多个DataNode组成
NameNode是HDFS的主节点,DataNode是从节点,两种角色各司其职
官方结构是一主5从,5个从角色
主节点:
记录元数据信息
从节点:管理数据块
块与文件
块的概念
在HDFS中,块是文件的最小存储单位,也是数据在Hadoop集群中的物理存储单位。每个块都具有固定的大小,通常为128MB或256MB。当文件被写入HDFS时,它会被分割成若干个块,并分布式地存储在集群中的不同节点上。
问题
1,每个文件上传时都会被分割成若干个块吗,不管这个文件的大小
2,每个块只包含一个文件的内容吗,还是会包含多个文件内容
3,每个块的小大是多少,是128M吗,累加128M吗,还是不是128M
回答
1,如下
总结为每个文件都会分割成块,但是还是跟文件大小有关,文件大于128M分割成多个块,文件小于128M只会分割成一个块。
块与副本
总共3个,1+2,一个块,有两个副本
每个数据块的默认大小通常是128MB(可以通过配置进行调整),这意味着如果一个文件的大小超过128MB,那么它将被分割成多个数据块;如果文件大小不足128MB,也会被分割成至少一个数据块,即使这个数据块没有达到标准大小也是如此。
2,
3,