HDFS——读写文件的数据传输格式

hdfs中很重要的一个流程就是数据的读写,但在此之前,需要先了解数据是如何传输的,数据包的具体的传输格式是怎样的,本文就此进行总结说明。

【数据包格式】


要了解客户端写hdfs是如何组织数据的,需要先了解三个概念:block,packet,chunk。

  • block

这个大家应该比较熟悉,hdfs中的文件就是由一个或多个block组成的,block的大小是可以配置的,默认是128MB。

  • chunk

客户端与datanode的数据传输中进行数据checksum计算的大小。该大小可以配置,默认是512字节。

也就是说,传输数据中,每512个字节进行一次checksum计算,并生成4字节长度的checksum。因此,chunk最大长度为512字节(为什么说最大长度是512字节,因为可能存在最后一个chunk数据长度不足512字节的情况,也会当做一个完整的chunk进行发送)

  • packet

介于chunk和block之间的一个单位,也是数据传输的基本单元,即客户端每次是按照一个packet进行数据发送的。

packet有固定的格式,如下图所示:

首先是4字节的packet长度(PLen);然后是2字节的packet header长度(HLen);接着是packet header,长度由HLen指定,再接下来是checksum列表和chunk数据列表。chunk和checksum一一对应,即有多少个chunk就有多少个checksum

packet header是按照protobuf进行编码传输的

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值