Hadoop序列化（含代码实现）

最新推荐文章于 2022-12-23 21:25:57 发布

原创

最新推荐文章于 2022-12-23 21:25:57 发布 · 1k 阅读

4 ·

CC 4.0 BY-SA版权

文章标签：

#hadoop #mapreduce #big data #大数据

序列化：把内存中的对象，转换为字节序列，便于存储到磁盘和进行网络传输。

反序列化：将磁盘中的数据或通过网络传输接收到的字节序列，转换为内存中的对象。

序列化的作用：可以将内存中的对象存储到磁盘中进行持久化存储，也可将对象通过网络传输发送到远程计算机上。

Hadoop序列化的特点：

快速：读写数据的额外开销小。
紧凑：高效利用存储空间。
可扩展：随着通信协议的迭代升级而升级。
互操作：支持多语言的交互。

提出问题：为什么不适应Java的序列化？

答：Java的序列化机制是一个重量级序列化框架，会额外附带很多信息（各种校验信息、Header、继承体系等），不便于高效的传输和使用。

Hadoop序列化具体实现如下（5、6根据具体需求选择使用）：

1、自定义bean类，实现Writable接口。

public class MyBean impements Writable{

}

2、该类中提供属性，创建空参构造器。

    //私有化属性：收入、支出
    private long income;
    private long expenditure;
    
    //提供空参构造器
    public MyBean(){

    }

    //额外提供带参构造器，方便后期如果有需要，可以使用
    public MyBean(long income, long expenditure){
        this.income = income;
        this.expenditure = expenditure;
    }