Download free for 30 days
Sign in
Upload
Language (EN)
Support
Business
Mobile
Social Media
Marketing
Technology
Art & Photos
Career
Design
Education
Presentations & Public Speaking
Government & Nonprofit
Healthcare
Internet
Law
Leadership & Management
Automotive
Engineering
Software
Recruiting & HR
Retail
Sales
Services
Science
Small Business & Entrepreneurship
Food
Environment
Economy & Finance
Data & Analytics
Investor Relations
Sports
Spiritual
News & Politics
Travel
Self Improvement
Real Estate
Entertainment & Humor
Health & Medicine
Devices & Hardware
Lifestyle
Change Language
Language
English
Español
Português
Français
Deutsche
Cancel
Save
Submit search
EN
Uploaded by
Yukinori Suda
PDF, PPTX
6,557 views
Cloudera impalaの性能評価(Hiveとの比較)
Hadoop MapReduceの処理速度より1桁速いと聞いて、早速自前のクラスタ環境で評価しました。
Technology
◦
Read more
17
Save
Share
Embed
Embed presentation
Download
Download as PDF, PPTX
1
/ 17
2
/ 17
3
/ 17
4
/ 17
5
/ 17
6
/ 17
7
/ 17
8
/ 17
9
/ 17
10
/ 17
11
/ 17
12
/ 17
13
/ 17
14
/ 17
15
/ 17
16
/ 17
17
/ 17
More Related Content
PDF
Impala データサイエンティストのための 高速大規模分散基盤 #tokyowebmining
by
Sho Shimauchi
PPTX
Introduction to Impala ~Hadoop用のSQLエンジン~ #hcj13w
by
Cloudera Japan
PDF
Evolution of Impala #hcj2014
by
Cloudera Japan
PDF
HBaseを用いたグラフDB「Hornet」の設計と運用
by
Toshihiro Suzuki
PDF
HBase at Ameba
by
Toshihiro Suzuki
PDF
Tez on EMRを試してみた
by
Satoshi Noto
PDF
スケーラブルなシステムのためのHBaseスキーマ設計 #hcj13w
by
Cloudera Japan
PPTX
Impala 2.0 Update 日本語版 #impalajp
by
Cloudera Japan
Impala データサイエンティストのための 高速大規模分散基盤 #tokyowebmining
by
Sho Shimauchi
Introduction to Impala ~Hadoop用のSQLエンジン~ #hcj13w
by
Cloudera Japan
Evolution of Impala #hcj2014
by
Cloudera Japan
HBaseを用いたグラフDB「Hornet」の設計と運用
by
Toshihiro Suzuki
HBase at Ameba
by
Toshihiro Suzuki
Tez on EMRを試してみた
by
Satoshi Noto
スケーラブルなシステムのためのHBaseスキーマ設計 #hcj13w
by
Cloudera Japan
Impala 2.0 Update 日本語版 #impalajp
by
Cloudera Japan
What's hot
PDF
HiveとImpalaのおいしいとこ取り
by
Yukinori Suda
PDF
Apache Hadoop & Hive 入門 (マーケティングデータ分析基盤技術勉強会)
by
Takeshi Mikami
PDF
Hiveを高速化するLLAP
by
Yahoo!デベロッパーネットワーク
PPTX
sparksql-hive-bench-by-nec-hwx-at-hcj16
by
Yifeng Jiang
PDF
Cloudera Impalaをサービスに組み込むときに苦労した話
by
Yukinori Suda
PDF
5分でわかる Apache HBase 最新版 #hcj2014
by
Cloudera Japan
PDF
マルチテナント Hadoop クラスタのためのモニタリング Best Practice
by
Hadoop / Spark Conference Japan
PPTX
HBase×Impalaで作るアドテク「GMOプライベートDMP」@HBaseMeetupTokyo2015Summer
by
Michio Katano
PDF
Kuduを調べてみた #dogenzakalt
by
Toshihiro Suzuki
PDF
なぜApache HBaseを選ぶのか? #cwt2013
by
Cloudera Japan
PDF
CDH5最新情報 #cwt2013
by
Cloudera Japan
PDF
MapReduce/Spark/Tezのフェアな性能比較に向けて (Cloudera World Tokyo 2014 LT講演)
by
Hadoop / Spark Conference Japan
PDF
db tech showcase_2014_A14_Actian Vectorで得られる、BIにおける真のパフォーマンスとは
by
Koji Shinkubo
PDF
Impalaチューニングポイントベストプラクティス
by
Yahoo!デベロッパーネットワーク
PPTX
Hive on Spark の設計指針を読んでみた
by
Recruit Technologies
PDF
Sparkパフォーマンス検証
by
BrainPad Inc.
PDF
Impala概要 道玄坂LT祭り 20150312 #dogenzakalt
by
Cloudera Japan
PDF
Hive on Spark を活用した高速データ分析 - Hadoop / Spark Conference Japan 2016
by
Nagato Kasaki
PPTX
HDFS Supportaiblity Improvements
by
Cloudera Japan
PDF
刊行記念セミナー「HBase徹底入門」
by
cyberagent
HiveとImpalaのおいしいとこ取り
by
Yukinori Suda
Apache Hadoop & Hive 入門 (マーケティングデータ分析基盤技術勉強会)
by
Takeshi Mikami
Hiveを高速化するLLAP
by
Yahoo!デベロッパーネットワーク
sparksql-hive-bench-by-nec-hwx-at-hcj16
by
Yifeng Jiang
Cloudera Impalaをサービスに組み込むときに苦労した話
by
Yukinori Suda
5分でわかる Apache HBase 最新版 #hcj2014
by
Cloudera Japan
マルチテナント Hadoop クラスタのためのモニタリング Best Practice
by
Hadoop / Spark Conference Japan
HBase×Impalaで作るアドテク「GMOプライベートDMP」@HBaseMeetupTokyo2015Summer
by
Michio Katano
Kuduを調べてみた #dogenzakalt
by
Toshihiro Suzuki
なぜApache HBaseを選ぶのか? #cwt2013
by
Cloudera Japan
CDH5最新情報 #cwt2013
by
Cloudera Japan
MapReduce/Spark/Tezのフェアな性能比較に向けて (Cloudera World Tokyo 2014 LT講演)
by
Hadoop / Spark Conference Japan
db tech showcase_2014_A14_Actian Vectorで得られる、BIにおける真のパフォーマンスとは
by
Koji Shinkubo
Impalaチューニングポイントベストプラクティス
by
Yahoo!デベロッパーネットワーク
Hive on Spark の設計指針を読んでみた
by
Recruit Technologies
Sparkパフォーマンス検証
by
BrainPad Inc.
Impala概要 道玄坂LT祭り 20150312 #dogenzakalt
by
Cloudera Japan
Hive on Spark を活用した高速データ分析 - Hadoop / Spark Conference Japan 2016
by
Nagato Kasaki
HDFS Supportaiblity Improvements
by
Cloudera Japan
刊行記念セミナー「HBase徹底入門」
by
cyberagent
More from Yukinori Suda
PDF
Hadoop operation chaper 4
by
Yukinori Suda
PDF
Hadoopエコシステムを駆使したこれからのWebアクセス解析サービス
by
Yukinori Suda
PDF
自宅でHive愛を育む方法 〜Raspberry Pi編〜
by
Yukinori Suda
PDF
⾃宅で Hive 愛を育むための⼿順(Raspberry Pi 編)
by
Yukinori Suda
PDF
Evaluation of cloudera impala 1.1
by
Yukinori Suda
PDF
Performance Evaluation of Cloudera Impala GA
by
Yukinori Suda
PDF
Performance evaluation of cloudera impala 0.6 beta with comparison to Hive
by
Yukinori Suda
PDF
Performance evaluation of cloudera impala (with Comparison to Hive)
by
Yukinori Suda
Hadoop operation chaper 4
by
Yukinori Suda
Hadoopエコシステムを駆使したこれからのWebアクセス解析サービス
by
Yukinori Suda
自宅でHive愛を育む方法 〜Raspberry Pi編〜
by
Yukinori Suda
⾃宅で Hive 愛を育むための⼿順(Raspberry Pi 編)
by
Yukinori Suda
Evaluation of cloudera impala 1.1
by
Yukinori Suda
Performance Evaluation of Cloudera Impala GA
by
Yukinori Suda
Performance evaluation of cloudera impala 0.6 beta with comparison to Hive
by
Yukinori Suda
Performance evaluation of cloudera impala (with Comparison to Hive)
by
Yukinori Suda
Cloudera impalaの性能評価(Hiveとの比較)
1.
Cloudera impalaの性能評価
(Hiveとの比較) 2012年11月2日 株式会社セラン R&D戦略室 須田幸憲 @sudabon
2.
はじめに — 「impalaがHadoop MapReduceのHiveより1桁速い」(※)と聞
いて、普段業務にて使用しているHiveより本当に速いのかを検 証した — 普段の業務では… — CDH3でHadoopクラスタを構築 — WebのアクセスログをSnappyで圧縮してRCFileでHDFSに保存 — Map処理出力とReduce処理出力も共にSnappyで圧縮 — Thriftサービス経由でPHPからHiveでクエリを実行 ※出典 Cloudera Impala:Apache Hadoopで実現する、リアルのためのリア ルタイムクエリ
3.
impala(v0.1.1)の概要 — Cloudera社が開発したGoogle Dremelのオープンソース版 —
リアルタイムなアドホッククエリをHadoop上で実行できる — HDFSあるいはHBaseに保存されているデータが対象 — HiveQLと互換のクエリ言語をサポート — ストレージエンジンとしてはTextFileとSequenceFileのみ — SequenceFileはSnappy、Gzip、Bzip2で圧縮可能 — MapReduceではなく、専用の分散クエリエンジンを使用
4.
評価環境 —
Cloudera Manager Free Edition 4.1.0 ・HDFS NameNode ・HDFS SecondaryNameNode DataNode ・MapReduce ・MapReduce JobTracker TaskTracker ・impala ・impala impalad impalad Impala-state-store マスター1台 スレーブ4台
5.
サーバの仕様 — CPU
— 合計2コアのIntel Xeon 1.6GHz(HTあり) — メモリ — 4GB — ディスク — SASドライブ(rpmは不明) — OS — CentOS 6.2
6.
評価方法 — クエリの応答時間比較 —
Hiveシェルとimpalaシェルでそれぞれ5回実行した平均値 — クエリで処理するデータ — 約6,500万行のWebのアクセスログ(8ヶ月分) — 日付でパーティショニング — カラム数は14個
7.
評価内容 — 使用したクエリ —
SELECT count(*) FROM table_name — パラメータ — ストレージフォーマット形式 — TextFile、SequenceFile、RCFile(Hiveのみ) — 保存ファイルの圧縮形式 — Gzip、Snappy — MapReduce処理出力データの圧縮形式 — Gzip、Snappy
8.
対象データ — 任意の1日分のファイルサイズ ファイル圧縮
TextFile SequnceFile RCFile 非圧縮 37.88 MB 40.69 MB 36.01 MB (100 %) (107.4 %) (95.1 %) Gzip 2.47 MB 3.07 MB 2.84 MB (6.5 %) (8.1 %) (7.5 %) Snappy 6.72 MB 7.49 MB 6.00 MB (17.7 %) (19.8 %) (15.8 %)
9.
評価結果(MR + Hive) —
単位は秒 ファイル圧縮 MR出力圧縮 TextFile SequenceFile RCFile 非圧縮 非圧縮 135.913 157.042 126.626 (100 %) (116 %) (93.2 %) Gzip Gzip 238.876 169.675 計測不可 (176 %) (125 %) Snappy Snappy 239.201 65.055 57.173 (176 %) (47.9 %) (42.1 %) ターゲットタイムは 57.173 秒
10.
評価結果(impala) — 単位は秒
ファイル圧縮 TextFile SequenceFile 非圧縮 73.422 88.422 (54.0 %) (65.1 %) Gzip 計測なし 8.284 (6.1 %) Snappy 計測なし 15.099 (11.1 %) — 最速平均値はGzipの場合で 8.284 秒 — ちなみにGzipの最速実測値は 7.232 秒
11.
まとめ — 「impalaはHiveより1桁速く処理できる」は正しかった snappyで圧縮されたRCFileをHiveで処理すると約57秒
gzipで圧縮されたSequenceFileをimpalaで処理すると約8秒 — 補足 — 仕様の詳細についてはリリースノートをご参照ください Cloudera Impala 1.0 Beta Release Notes
12.
追加評価
13.
評価内容 — 使用したクエリ —
SELECT count(*) FROM table_name WHERE column = ‘xxxx’ — パラメータ — ストレージフォーマット形式 — Hive ⇒ RCFile — impala ⇒ SequenceFile — 保存ファイルの圧縮形式 — Hive ⇒ Gzip — impala ⇒ Gzip、Snappy — MapReduce処理出力データの圧縮形式(Hiveのみ) — Snappy
14.
評価結果 — Hive(単位は秒)
ファイル圧縮 MR出力圧縮 RCFile Snappy Snappy 60.574 (100 %) — impala(単位は秒) ファイル圧縮 SequenceFile Gzip 22.960 (26.4 %) Snappy 14.679 (23.2 %) — 文字列一致検索の処理時間も 約23% に短縮
15.
まとめ — 全数カウントだけでなく、文字列一致検索でも処理時間が 約1/4に短縮された
snappyで圧縮されたRCFileをHiveで処理すると約61秒 snappyで圧縮されたSequenceFileをimpalaで処理すると約15秒 — ただし、全数カウントの場合はgzipで圧縮された SequenceFileの場合が最速であったが、文字列一致検 索の場合はgzipよりもsnappyで圧縮されたSequnceFile の方が速かった
16.
フィードバック — 記載内容に不備等がございましたら、下記連絡先までご連 絡いただけますと、幸甚です。 —
質問等もお気軽にご連絡ください。可能な範囲で返信いた します。 — 連絡先 — メール: sudabon at gmail dot com — Twitter: @sudabon
17.
変更履歴 — 2012年11月2日 初版 —
2012年11月5日 追加評価を追記
Download