hive笔记(九):压缩和存储-Hadoop压缩配置/map、reduce输出阶段压缩/文件存储格式/textfile、parquet、orc

目录

压缩和存储

Hadoop压缩配置

MR支持的压缩编码

压缩参数配置

开启Map输出阶段压缩(MR引擎)

开启reduce输出阶段压缩

文件存储格式

列式存储和行式存储

TextFile

Parquet

Orc

存储和压缩结合

测试存储和压缩


压缩和存储

Hadoop压缩配置

MR支持的压缩编码

压缩格式 算法 文件扩展名 是否可切分
gzip DEFLATE .gz
snappy snappy .snappy
DEFLATE DEFLATE .deflate
bzip2 bzip2 .bz2
LZO lzo .lzo

Hadoop的编码/解码器

压缩格式 对应的编码/解码器
gzip org.apache.hadoop.io.compress.GzipCodec
snappy org.apache.hadoop.io.compress.SnappyCodec
DEFLATE org.apache.hadoop.io.compress.DefaultCodec
bzip2 org.apache.hadoop.io.compress.Bzip2Codec
LZO com.hadoop/compress.lzo.LzopCodec

压缩性能的比较

压缩算法 源文件大小 压缩文件大小 压缩速度 解压速度
gzip 8.3g 1.8g 17.5MB/s 58MB/s
bzip2 8.3g 1.1g 2.4MB/s 9.5MB/s
LZO 8.3g 2.9g 29.3MB/s 74.6MB/s

注:Snappy的压缩速度和解压速度都非常快。

压缩参数配置

在mapred-site.xml中配置压缩参数才可以在Hadoop中使用压缩。

参数 默认值 阶段 建议
io.compression.codecs
(在 core-site.xml 中配置)
org.apache.hadoop.io.compress.DefaultCodec,
org.apache.hadoop.io.compress.GzipCodec,
org.apache.hadoop.io.compress.BZip2Codec,
org.apache.hadoop.io.compress.Lz4Codec
输入压缩
Hadoop 使用文件扩展名判断是否支持某种编解码器
mapreduce.map.output.com
press
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值