タグ

compressionとhiveに関するyassのブックマーク (2)

  • Blog | Cloudera

    ClouderaNOW   Learn about the latest innovations in data, analytics, and AI   |  July 16 Register now

    Blog | Cloudera
    yass
    yass 2013/09/23
    " ORCFile was introduced in Hive 0.11 and offered excellent compression, delivered through a number of techniques including run-length encoding, dictionary encoding for strings and bitmap encoding. "
  • Hiveのファイル圧縮とSTOREの種類とマージの関係

    Hiveの設定項目に「hive.merge.size.per.task」という項目があります。 マージ処理が有効になっている(hive.merge.mapredfiles=true)上で、上述の項目で指定した所定のファイルサイズにHiveの計算結果ファイル(MapReduceの結果ファイル)のサイズが満たない場合、所定のサイズを超えるようにマージ処理が行われます。 用途としては、結果ファイルとしてあまりに細かいファイルが大量に作られHDFSのブロックが有効活用出来ない状況を回避するため、と認識しています。 (できるだけ1ファイルをHDFSのブロックサイズに一致するようなサイズにマージしたい。) もしくは解析時に大量のMapタスクを生成したくない、という目的もあると思います。 ただ、こちらのパラメータはケースによっては有効にならないようです。 ◯有効になるケース 計算結果ファイルを非圧縮にし

  • 1