hdfs中很重要的一个流程就是数据的读写,但在此之前,需要先了解数据是如何传输的,数据包的具体的传输格式是怎样的,本文就此进行总结说明。
【数据包格式】
要了解客户端写hdfs是如何组织数据的,需要先了解三个概念:block,packet,chunk。
block
这个大家应该比较熟悉,hdfs中的文件就是由一个或多个block组成的,block的大小是可以配置的,默认是128MB。
chunk
客户端与datanode的数据传输中进行数据checksum计算的大小。该大小可以配置,默认是512字节。
也就是说,传输数据中,每512个字节进行一次checksum计算,并生成4字节长度的checksum。因此,chunk最大长度为512字节(为什么说最大长度是512字节,因为可能存在最后一个chunk数据长度不足512字节的情况,也会当做一个完整的chunk进行发送)
packet
介于chunk和block之间的一个单位,也是数据传输的基本单元,即客户端每次是按照一个packet进行数据发送的。
packet有固定的格式,如下图所示:
首先是4字节的packet长度(PLen);然后是2字节的packet header长度(HLen);接着是packet header,长度由HLen指定,再接下来是checksum列表和chunk数据列表。chunk和checksum一一对应,即有多少个chunk就有多少个checksum
packet header是按照protobuf进行编码传输的