Download free for 30 days
Sign in
Upload
Language (EN)
Support
Business
Mobile
Social Media
Marketing
Technology
Art & Photos
Career
Design
Education
Presentations & Public Speaking
Government & Nonprofit
Healthcare
Internet
Law
Leadership & Management
Automotive
Engineering
Software
Recruiting & HR
Retail
Sales
Services
Science
Small Business & Entrepreneurship
Food
Environment
Economy & Finance
Data & Analytics
Investor Relations
Sports
Spiritual
News & Politics
Travel
Self Improvement
Real Estate
Entertainment & Humor
Health & Medicine
Devices & Hardware
Lifestyle
Change Language
Language
English
Español
Português
Français
Deutsche
Cancel
Save
Submit search
EN
Uploaded by
Recruit Technologies
6,927 views
Hive on Spark の設計指針を読んでみた
Hive on Spark の設計指針を読んでみた
Technology
◦
Read more
10
Save
Share
Embed
Embed presentation
1
/ 24
2
/ 24
3
/ 24
4
/ 24
5
/ 24
6
/ 24
7
/ 24
8
/ 24
9
/ 24
10
/ 24
11
/ 24
12
/ 24
13
/ 24
14
/ 24
15
/ 24
16
/ 24
17
/ 24
18
/ 24
19
/ 24
20
/ 24
21
/ 24
22
/ 24
23
/ 24
24
/ 24
More Related Content
PDF
大規模サービスを支えるネットワークインフラの全貌
by
LINE Corporation
PDF
Apache Hadoop YARNとマルチテナントにおけるリソース管理
by
Cloudera Japan
PPTX
Dockerからcontainerdへの移行
by
Akihiro Suda
PPT
インフラエンジニアのためのcassandra入門
by
Akihiro Kuwano
PPTX
PostgreSQL 14 モニタリング新機能紹介(PostgreSQL カンファレンス #24、2021/06/08)
by
NTT DATA Technology & Innovation
PDF
react-scriptsはwebpackで何をしているのか
by
暁 三宅
PDF
Dockerセキュリティ: 今すぐ役に立つテクニックから,次世代技術まで
by
Akihiro Suda
PPTX
CloudNativePGを動かしてみた! ~PostgreSQL on Kubernetes~(第34回PostgreSQLアンカンファレンス@オンライ...
by
NTT DATA Technology & Innovation
大規模サービスを支えるネットワークインフラの全貌
by
LINE Corporation
Apache Hadoop YARNとマルチテナントにおけるリソース管理
by
Cloudera Japan
Dockerからcontainerdへの移行
by
Akihiro Suda
インフラエンジニアのためのcassandra入門
by
Akihiro Kuwano
PostgreSQL 14 モニタリング新機能紹介(PostgreSQL カンファレンス #24、2021/06/08)
by
NTT DATA Technology & Innovation
react-scriptsはwebpackで何をしているのか
by
暁 三宅
Dockerセキュリティ: 今すぐ役に立つテクニックから,次世代技術まで
by
Akihiro Suda
CloudNativePGを動かしてみた! ~PostgreSQL on Kubernetes~(第34回PostgreSQLアンカンファレンス@オンライ...
by
NTT DATA Technology & Innovation
What's hot
PPTX
はじめてのElasticsearchクラスタ
by
Satoyuki Tsukano
PDF
統計情報のリセットによるautovacuumへの影響について(第39回PostgreSQLアンカンファレンス@オンライン 発表資料)
by
NTT DATA Technology & Innovation
PDF
ヤフー社内でやってるMySQLチューニングセミナー大公開
by
Yahoo!デベロッパーネットワーク
PPTX
Elasticsearch as a Distributed System
by
Satoyuki Tsukano
PDF
今からでも遅くないDBマイグレーション - Flyway と SchemaSpy の紹介 -
by
onozaty
PDF
SQLアンチパターン(インデックスショットガン)
by
Tomoaki Uchida
PPTX
え、まって。その並列分散処理、Kafkaのしくみでもできるの? Apache Kafkaの機能を利用した大規模ストリームデータの並列分散処理
by
NTT DATA Technology & Innovation
PPTX
Apache Spark on Kubernetes入門(Open Source Conference 2021 Online Hiroshima 発表資料)
by
NTT DATA Technology & Innovation
PDF
Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~
by
NTT DATA OSS Professional Services
PDF
データセンターネットワークの構成について
by
MicroAd, Inc.(Engineer)
PPTX
Linux の hugepage の開発動向
by
Naoya Horiguchi
PDF
オンライン広告入札システムとZGC ( JJUG CCC 2021 Spring )
by
Hironobu Isoda
PDF
PostgreSQLの行レベルセキュリティと SpringAOPでマルチテナントの ユーザー間情報漏洩を防止する (JJUG CCC 2021 Spring)
by
Koichiro Matsuoka
PDF
CyberAgent における OSS の CI/CD 基盤開発 myshoes #CICD2021
by
whywaita
PPTX
PostgreSQLのロール管理とその注意点(Open Source Conference 2022 Online/Osaka 発表資料)
by
NTT DATA Technology & Innovation
PDF
Apache Arrow - データ処理ツールの次世代プラットフォーム
by
Kouhei Sutou
PPTX
SQLチューニング入門 入門編
by
Miki Shimogai
PDF
速習!論理レプリケーション ~基礎から最新動向まで~(PostgreSQL Conference Japan 2022 発表資料)
by
NTT DATA Technology & Innovation
PDF
SQLアンチパターン - 開発者を待ち受ける25の落とし穴 (拡大版)
by
Takuto Wada
PDF
株式会社コロプラ『GKE と Cloud Spanner が躍動するドラゴンクエストウォーク』第 9 回 Google Cloud INSIDE Game...
by
Google Cloud Platform - Japan
はじめてのElasticsearchクラスタ
by
Satoyuki Tsukano
統計情報のリセットによるautovacuumへの影響について(第39回PostgreSQLアンカンファレンス@オンライン 発表資料)
by
NTT DATA Technology & Innovation
ヤフー社内でやってるMySQLチューニングセミナー大公開
by
Yahoo!デベロッパーネットワーク
Elasticsearch as a Distributed System
by
Satoyuki Tsukano
今からでも遅くないDBマイグレーション - Flyway と SchemaSpy の紹介 -
by
onozaty
SQLアンチパターン(インデックスショットガン)
by
Tomoaki Uchida
え、まって。その並列分散処理、Kafkaのしくみでもできるの? Apache Kafkaの機能を利用した大規模ストリームデータの並列分散処理
by
NTT DATA Technology & Innovation
Apache Spark on Kubernetes入門(Open Source Conference 2021 Online Hiroshima 発表資料)
by
NTT DATA Technology & Innovation
Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~
by
NTT DATA OSS Professional Services
データセンターネットワークの構成について
by
MicroAd, Inc.(Engineer)
Linux の hugepage の開発動向
by
Naoya Horiguchi
オンライン広告入札システムとZGC ( JJUG CCC 2021 Spring )
by
Hironobu Isoda
PostgreSQLの行レベルセキュリティと SpringAOPでマルチテナントの ユーザー間情報漏洩を防止する (JJUG CCC 2021 Spring)
by
Koichiro Matsuoka
CyberAgent における OSS の CI/CD 基盤開発 myshoes #CICD2021
by
whywaita
PostgreSQLのロール管理とその注意点(Open Source Conference 2022 Online/Osaka 発表資料)
by
NTT DATA Technology & Innovation
Apache Arrow - データ処理ツールの次世代プラットフォーム
by
Kouhei Sutou
SQLチューニング入門 入門編
by
Miki Shimogai
速習!論理レプリケーション ~基礎から最新動向まで~(PostgreSQL Conference Japan 2022 発表資料)
by
NTT DATA Technology & Innovation
SQLアンチパターン - 開発者を待ち受ける25の落とし穴 (拡大版)
by
Takuto Wada
株式会社コロプラ『GKE と Cloud Spanner が躍動するドラゴンクエストウォーク』第 9 回 Google Cloud INSIDE Game...
by
Google Cloud Platform - Japan
Similar to Hive on Spark の設計指針を読んでみた
PDF
Hive on Spark を活用した高速データ分析 - Hadoop / Spark Conference Japan 2016
by
Nagato Kasaki
PDF
ビッグデータ活用を加速する!分散SQLエンジン Spark SQL のご紹介 20161105 OSC Tokyo Fall
by
YusukeKuramata
PDF
The Future of Apache Spark
by
Hadoop / Spark Conference Japan
PDF
QConTokyo2015「Sparkを用いたビッグデータ解析 〜後編〜」
by
Kazuki Taniguchi
PDF
Big Data University Tokyo Meetup #6 (mlwith_spark) 配布資料
by
Atsushi Tsuchiya
PDF
開発中の新機能 Spark Declarative Pipeline に飛びついてみたが難しかった(JEDAI DAIS Recap#2 講演資料)
by
NTT DATA Technology & Innovation
PDF
Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)
by
NTT DATA OSS Professional Services
PDF
Sparkのクエリ処理系と周辺の話題
by
Takeshi Yamamuro
PPTX
Spark Summit 2014 の報告と最近の取り組みについて
by
Recruit Technologies
PPTX
G-Tech2015 Hadoop/Sparkを中核としたビッグデータ基盤_20151006
by
Cloudera Japan
PDF
[db tech showcase Tokyo 2016] B31: Spark Summit 2016@SFに参加してきたので最新事例などを紹介しつつデ...
by
Insight Technology, Inc.
PPTX
2015 03-12 道玄坂LT祭り第2回 Spark DataFrame Introduction
by
Yu Ishikawa
PPTX
Sparkにプルリク投げてみた
by
Noritaka Sekiyama
PDF
Hive undocumented feature
by
tamtam180
PDF
Spark SQL - The internal -
by
NTT DATA OSS Professional Services
PDF
Apache spark 2.3 and beyond
by
NTT DATA Technology & Innovation
PDF
[Oracle big data jam session #1] Apache Spark ことはじめ
by
Kenichi Sonoda
PPT
Quick Overview of Upcoming Spark 3.0 + α
by
Takeshi Yamamuro
PPTX
Hadoop conference 2013winter_for_slideshare
by
Yu Ishikawa
PDF
Taming Distributed/Parallel Query Execution Engine of Apache Spark
by
Takeshi Yamamuro
Hive on Spark を活用した高速データ分析 - Hadoop / Spark Conference Japan 2016
by
Nagato Kasaki
ビッグデータ活用を加速する!分散SQLエンジン Spark SQL のご紹介 20161105 OSC Tokyo Fall
by
YusukeKuramata
The Future of Apache Spark
by
Hadoop / Spark Conference Japan
QConTokyo2015「Sparkを用いたビッグデータ解析 〜後編〜」
by
Kazuki Taniguchi
Big Data University Tokyo Meetup #6 (mlwith_spark) 配布資料
by
Atsushi Tsuchiya
開発中の新機能 Spark Declarative Pipeline に飛びついてみたが難しかった(JEDAI DAIS Recap#2 講演資料)
by
NTT DATA Technology & Innovation
Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)
by
NTT DATA OSS Professional Services
Sparkのクエリ処理系と周辺の話題
by
Takeshi Yamamuro
Spark Summit 2014 の報告と最近の取り組みについて
by
Recruit Technologies
G-Tech2015 Hadoop/Sparkを中核としたビッグデータ基盤_20151006
by
Cloudera Japan
[db tech showcase Tokyo 2016] B31: Spark Summit 2016@SFに参加してきたので最新事例などを紹介しつつデ...
by
Insight Technology, Inc.
2015 03-12 道玄坂LT祭り第2回 Spark DataFrame Introduction
by
Yu Ishikawa
Sparkにプルリク投げてみた
by
Noritaka Sekiyama
Hive undocumented feature
by
tamtam180
Spark SQL - The internal -
by
NTT DATA OSS Professional Services
Apache spark 2.3 and beyond
by
NTT DATA Technology & Innovation
[Oracle big data jam session #1] Apache Spark ことはじめ
by
Kenichi Sonoda
Quick Overview of Upcoming Spark 3.0 + α
by
Takeshi Yamamuro
Hadoop conference 2013winter_for_slideshare
by
Yu Ishikawa
Taming Distributed/Parallel Query Execution Engine of Apache Spark
by
Takeshi Yamamuro
More from Recruit Technologies
PDF
新卒2年目が鍛えられたコードレビュー道場
by
Recruit Technologies
PDF
カーセンサーで深層学習を使ってUX改善を行った事例とそこからの学び
by
Recruit Technologies
PDF
Rancherを活用した開発事例の紹介 ~Rancherのメリットと辛いところ~
by
Recruit Technologies
PDF
Tableau活用4年の軌跡
by
Recruit Technologies
PDF
HadoopをBQにマイグレしようとしてる話
by
Recruit Technologies
PDF
LT(自由)
by
Recruit Technologies
PDF
リクルートグループの現場事例から見る AI/ディープラーニング ビジネス活用の勘所
by
Recruit Technologies
PDF
Company Recommendation for New Graduates via Implicit Feedback Multiple Matri...
by
Recruit Technologies
PDF
リクルート式AIの活用法
by
Recruit Technologies
PDF
銀行ロビーアシスタント
by
Recruit Technologies
PDF
リクルートにおけるマルチモーダル Deep Learning Web API 開発事例
by
Recruit Technologies
PDF
ユーザー企業内製CSIRTにおける対応のポイント
by
Recruit Technologies
PDF
ユーザーからみたre:Inventのこれまでと今後
by
Recruit Technologies
PDF
Struggling with BIGDATA -リクルートおけるデータサイエンス/エンジニアリング-
by
Recruit Technologies
PDF
EMRでスポットインスタンスの自動入札ツールを作成する
by
Recruit Technologies
PDF
RANCHERを使ったDev(Ops)
by
Recruit Technologies
PDF
リクルートにおけるセキュリティ施策方針とCSIRT組織運営のポイント
by
Recruit Technologies
PDF
ユーザー企業内製CSIRTにおける対応のポイント
by
Recruit Technologies
PDF
リクルートテクノロジーズが語る 企業における、「AI/ディープラーニング」活用のリアル
by
Recruit Technologies
PDF
「リクルートデータセット」 ~公開までの道のりとこれから~
by
Recruit Technologies
新卒2年目が鍛えられたコードレビュー道場
by
Recruit Technologies
カーセンサーで深層学習を使ってUX改善を行った事例とそこからの学び
by
Recruit Technologies
Rancherを活用した開発事例の紹介 ~Rancherのメリットと辛いところ~
by
Recruit Technologies
Tableau活用4年の軌跡
by
Recruit Technologies
HadoopをBQにマイグレしようとしてる話
by
Recruit Technologies
LT(自由)
by
Recruit Technologies
リクルートグループの現場事例から見る AI/ディープラーニング ビジネス活用の勘所
by
Recruit Technologies
Company Recommendation for New Graduates via Implicit Feedback Multiple Matri...
by
Recruit Technologies
リクルート式AIの活用法
by
Recruit Technologies
銀行ロビーアシスタント
by
Recruit Technologies
リクルートにおけるマルチモーダル Deep Learning Web API 開発事例
by
Recruit Technologies
ユーザー企業内製CSIRTにおける対応のポイント
by
Recruit Technologies
ユーザーからみたre:Inventのこれまでと今後
by
Recruit Technologies
Struggling with BIGDATA -リクルートおけるデータサイエンス/エンジニアリング-
by
Recruit Technologies
EMRでスポットインスタンスの自動入札ツールを作成する
by
Recruit Technologies
RANCHERを使ったDev(Ops)
by
Recruit Technologies
リクルートにおけるセキュリティ施策方針とCSIRT組織運営のポイント
by
Recruit Technologies
ユーザー企業内製CSIRTにおける対応のポイント
by
Recruit Technologies
リクルートテクノロジーズが語る 企業における、「AI/ディープラーニング」活用のリアル
by
Recruit Technologies
「リクルートデータセット」 ~公開までの道のりとこれから~
by
Recruit Technologies
Hive on Spark の設計指針を読んでみた
1.
Hive on Spark の設計指針を読 んでみた Yu
Ishikawa 2014-07-24
2.
はじめに Apache Hive
の実行エンジンとして Spark に 対応する機能が開発中 [HIVE-7292] Hive on Spark - ASF JIRA https://issues.apache.org/jira/browse/HIVE-7292 2014-06-25 に Hive on Spark の設計指針など が, Cloudera 社の Xuefu Zhang らによって 公開された
3.
Table of Contents
Hive on Spark の導入 高レベルの機能性の解説 高レベルの設計概要 各コンポーネントの解説 まとめ
4.
Hive on Spark
の導入
5.
Hive on Spark
の目的 (Hadoop) MapReduce, Tez につづいて第3の Hive 実行エンジンとして Spark に対応させる Spark とはHadoop MapReduce より高速に処 理できるオープンソースのデータ分析分散処理 フレームワーク Spark は Resilient Distributed Dataset (RDD) と いうデータコレクションでデータを表現
6.
Motivation: 実装する動機 すでに
Spark を利用しているユーザとっては, 処理環境が標準化されることでオペレーショ ン的なコスト削減 SQL on Hadoop として,Hive を Spark ユー ザに提供 Hive on Tez のようにパフォーマンスの向上
7.
設計指針:Design Principle 既存の
Hive のコードには影響を(可能な限 り)与えない 現在 MapReduce と Tez の実行エンジンを簡 単に切り替えられるように,Spark も簡単に 切り替えられる Spark への特別な対処をする必要することな く,既存の MapReduce や Tez の処理と共通 化できるところは最大限共通化 Hive 側の拡張に対して,Hive on Spark の部 分も自動的に対応されるような実装
8.
Shark や Spark
SQL との比較 Hive on Spark は,すべての Hive の特徴を Spark の実 行エンジンでも利用可能にする Hive QL, 認証, モニタリング, 監視 など Shark Hive で生成されたクエリプランを Spark で実行できる ように変換 Spark SQL SQL-like (Hive QL も含む)を Spark アプリケーション で実行できるようにするためのパーサ Hive のように対話的に使うというより,Scala のコー ドの中で利用
9.
高レベルの機能性の解説
10.
Hive の実行エンジンとして Spark
を指定 する方法 デフォルト:mr (MapReduce) もし Spark を実行する環境がないときは,MapReduce か Tez を実行 Spark 用に Hive QL を一切変更することなく実行できる ように実装する Spark にジョブを投げるには,MapReduce の用に実行 する Spark クラスタの URI などを設定 hive> set hive.execution.engine=spark;
11.
その他実装するにあたっての要件 “explain” による実行計画の表示
MapReduce での Hive 実行のように,処理の 進行状況のフィードバック ジョブの統計や診断法の提供
12.
高レベルの設計概要
13.
実装にあったっての機能分類 Query planning
Hive QL の意味解析により Hive のオペレータ プランが Spark で実行できるタスクプランに変 換 Query execution 生成された Spark のタスクプランが実際に Spark クラスタで実行
14.
Query Planning(1) Operator
Plan は,TableScanOperator, ReduceSink, FileSink, GroupByOperator などの論理オペレータ のグラフで構成 HiveQL Operator plan Hive Semantic Analzer Graph of MapReduceTask MapReduceCompiler
15.
Query Planning(2) SparkCompiler
は Hive の論理オペレータプラ ンから Spark で実行できるプランにコンパイル ジョブとして実行できる形として SparkWork の インスタンスを作る SparkWork は Spark のタスクの実行プランを表 現 実行計画の最適化はつぎのフェーズにして,まず は機能を実装することに専念 HiveQL Operator plan Hive Semantic Analzer Graph of SparkTask SparkCompiler
16.
Job Execution SparkCompiler
によって生成された SparkTask のインスタンスは,Hive のタス ク実行フレームワークで MapReduce と同様 に実行できる Spark にジョブが投げられたら,ジョブの実 行状況をモニタリングできる仕組みを SparkListener として実装
17.
特筆すべき各コンポーネン トの解説
18.
採用する基本原則は? Spark 側の
SQL 解析を利用するのではなく, MapReduce の機構を利用 Spark の操作は Spark 側が公開している Java API で対応 Spark で実行できるように MapReduce 側の 基本原則を拡張
19.
Table as RDD
Hive テーブルを Spark のデータ形式である RDD として扱えるように実装 現時点でも HDFS のデータを扱える RDD が あるので,それを Hive に特化した形で拡張 する必要がある Scala として拡張するのは簡単だが,Java API として扱えるようにはなっていないので 課題
20.
SparkWork と SparkTask
SparkWork は SparkTask から利用 SparkWork は Spark ジョブを実行し続ける ためのタスクプランを表現 SparkWork は,MapWork と ReduceWork (たまに UnionWork)で構成
21.
Shuffle, Group, and
Sort Spark は,partitionBy, groupByKey, sortByKey などのような MapReduce の Shuffle を簡単にするための API があるのでそ れを利用して group by や sort by を実装 Hive QL の JOIN 句についても,Spark の join API を利用することで実装
22.
まとめ
23.
Hive on Spark
を実装するにあたって必要 そうな作業 Spark のジョブモニタリング Java APIs SparkContext をスレッドセーフにする シャッフルの機能性や API の改修 RDD を Hive テーブルで扱えるようにするた めの Java API の実装
24.
実装のすすめ方 いくつかのフェーズに分けて実装を進めてい く まずは基本的な機能の実装
その後に最適化や改良を行っていく Hive on Spark を進めていくには,Hive コ ミュニティと Spark コミュニティが密に連携 を取っていく必要がある