Upload
Download free for 30 days
Login
Submit Search
NetflixにおけるPresto/Spark活用事例
24 likes
8,036 views
Amazon Web Services Japan
Hadoop/Spark Conference Japan 2016でのライトニングトークの資料 by Ryosuke Iwanaga (@riywo)
Technology
Read more
1 of 23
Download now
Downloaded 54 times
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
More Related Content
PDF
Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ (Hadoop / Spark Conference Japan 2019)
Noritaka Sekiyama
PDF
SolrとElasticsearchを比べてみよう
Shinsuke Sugaya
PDF
Apache Spark + Arrow
Takeshi Yamamuro
PDF
HDFSのスケーラビリティの限界を突破するためのさまざまな取り組み | Hadoop / Spark Conference Japan 2019 #hc...
Yahoo!デベロッパーネットワーク
PDF
爆速クエリエンジン”Presto”を使いたくなる話
Kentaro Yoshida
PDF
超実践 Cloud Spanner 設計講座
Samir Hammoudi
PPTX
PostgreSQL 12は ここがスゴイ! ~性能改善やpluggable storage engineなどの新機能を徹底解説~ (NTTデータ テクノ...
NTT DATA Technology & Innovation
PDF
アーキテクチャから理解するPostgreSQLのレプリケーション
Masahiko Sawada
Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ (Hadoop / Spark Conference Japan 2019)
Noritaka Sekiyama
SolrとElasticsearchを比べてみよう
Shinsuke Sugaya
Apache Spark + Arrow
Takeshi Yamamuro
HDFSのスケーラビリティの限界を突破するためのさまざまな取り組み | Hadoop / Spark Conference Japan 2019 #hc...
Yahoo!デベロッパーネットワーク
爆速クエリエンジン”Presto”を使いたくなる話
Kentaro Yoshida
超実践 Cloud Spanner 設計講座
Samir Hammoudi
PostgreSQL 12は ここがスゴイ! ~性能改善やpluggable storage engineなどの新機能を徹底解説~ (NTTデータ テクノ...
NTT DATA Technology & Innovation
アーキテクチャから理解するPostgreSQLのレプリケーション
Masahiko Sawada
What's hot
(20)
PPTX
ビッグデータ処理データベースの全体像と使い分け 2018年version
Tetsutaro Watanabe
PDF
PostgreSQLのリカバリ超入門(もしくはWAL、CHECKPOINT、オンラインバックアップの仕組み)
Hironobu Suzuki
PDF
AWSのログ管理ベストプラクティス
Akihiro Kuwano
PDF
AWS Black Belt Online Seminar 2017 Amazon DynamoDB
Amazon Web Services Japan
PDF
リクルートのビッグデータ活用基盤とビッグデータ活用のためのメタデータ管理Webのご紹介
Recruit Technologies
PDF
ストリーム処理を支えるキューイングシステムの選び方
Yoshiyasu SAEKI
PDF
20210216 AWS Black Belt Online Seminar AWS Database Migration Service
Amazon Web Services Japan
PPTX
世の中のPostgreSQLエンジニアのpsql設定(第34回PostgreSQLアンカンファレンス@オンライン 発表資料)
NTT DATA Technology & Innovation
PDF
データウェアハウスモデリング入門(ダイジェスト版)(事前公開版)
Satoshi Nagayasu
PDF
ヤフー社内でやってるMySQLチューニングセミナー大公開
Yahoo!デベロッパーネットワーク
PDF
MongoDB〜その性質と利用場面〜
Naruhiko Ogasawara
PPTX
Argo CD Deep Dive
shunki fujiwara
PDF
オンプレミスRDBMSをAWSへ移行する手法
Amazon Web Services Japan
PPTX
BigQuery Query Optimization クエリ高速化編
sutepoi
PDF
各種データベースの特徴とパフォーマンス比較
株式会社オプト 仙台ラボラトリ
PDF
20210127 AWS Black Belt Online Seminar Amazon Redshift 運用管理
Amazon Web Services Japan
PDF
AWS で Presto を徹底的に使いこなすワザ
Noritaka Sekiyama
PDF
Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)
NTT DATA OSS Professional Services
PPTX
ポスト・ラムダアーキテクチャの切り札? Apache Hudi(NTTデータ テクノロジーカンファレンス 2020 発表資料)
NTT DATA Technology & Innovation
PDF
Docker入門-基礎編 いまから始めるDocker管理【2nd Edition】
Masahito Zembutsu
ビッグデータ処理データベースの全体像と使い分け 2018年version
Tetsutaro Watanabe
PostgreSQLのリカバリ超入門(もしくはWAL、CHECKPOINT、オンラインバックアップの仕組み)
Hironobu Suzuki
AWSのログ管理ベストプラクティス
Akihiro Kuwano
AWS Black Belt Online Seminar 2017 Amazon DynamoDB
Amazon Web Services Japan
リクルートのビッグデータ活用基盤とビッグデータ活用のためのメタデータ管理Webのご紹介
Recruit Technologies
ストリーム処理を支えるキューイングシステムの選び方
Yoshiyasu SAEKI
20210216 AWS Black Belt Online Seminar AWS Database Migration Service
Amazon Web Services Japan
世の中のPostgreSQLエンジニアのpsql設定(第34回PostgreSQLアンカンファレンス@オンライン 発表資料)
NTT DATA Technology & Innovation
データウェアハウスモデリング入門(ダイジェスト版)(事前公開版)
Satoshi Nagayasu
ヤフー社内でやってるMySQLチューニングセミナー大公開
Yahoo!デベロッパーネットワーク
MongoDB〜その性質と利用場面〜
Naruhiko Ogasawara
Argo CD Deep Dive
shunki fujiwara
オンプレミスRDBMSをAWSへ移行する手法
Amazon Web Services Japan
BigQuery Query Optimization クエリ高速化編
sutepoi
各種データベースの特徴とパフォーマンス比較
株式会社オプト 仙台ラボラトリ
20210127 AWS Black Belt Online Seminar Amazon Redshift 運用管理
Amazon Web Services Japan
AWS で Presto を徹底的に使いこなすワザ
Noritaka Sekiyama
Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)
NTT DATA OSS Professional Services
ポスト・ラムダアーキテクチャの切り札? Apache Hudi(NTTデータ テクノロジーカンファレンス 2020 発表資料)
NTT DATA Technology & Innovation
Docker入門-基礎編 いまから始めるDocker管理【2nd Edition】
Masahito Zembutsu
Ad
Similar to NetflixにおけるPresto/Spark活用事例
(20)
PDF
金融機関でのHive/Presto事例紹介
Amazon Web Services Japan
PDF
ソリューションセッション#3 ビッグデータの3つのVと4つのプロセスを支えるAWS活用法
Amazon Web Services Japan
PDF
AWS初心者向けWebinar AWSでBig Data活用
Amazon Web Services Japan
PDF
AWS Black Belt Tech シリーズ 2015 - Amazon Elastic MapReduce
Amazon Web Services Japan
PDF
クラウド上のデータ活用デザインパターン
Amazon Web Services Japan
PPTX
20170803 bigdataevent
Makoto Uehara
PDF
Amazon Elastic MapReduce@Hadoop Conference Japan 2011 Fall
Shinpei Ohtani
PDF
[AWSマイスターシリーズ] Amazon Elastic MapReduce (EMR)
Amazon Web Services Japan
PDF
AWS Black Belt Techシリーズ AWS Data Pipeline
Amazon Web Services Japan
PDF
Modernizing Big Data Workload Using Amazon EMR & AWS Glue
Noritaka Sekiyama
PDF
クラウド上のデータ活用デザインパターン
Amazon Web Services Japan
PDF
20111130 10 aws-meister-emr_long-public
Amazon Web Services Japan
PDF
Amazon Elastic MapReduce with Hive/Presto ハンズオン(講義)
Amazon Web Services Japan
PDF
AWS Black Belt Tech シリーズ 2015 - AWS Data Pipeline
Amazon Web Services Japan
PDF
AWS Black Belt Online Seminar 2016 Amazon EMR
Amazon Web Services Japan
PDF
データレイクを基盤としたAWS上での機械学習サービス構築
Amazon Web Services Japan
PPTX
Microservice and agile development
Kameda Harunobu
PDF
Amazon Game Tech Night #22 AWSで実現するデータレイクとアナリティクス
Amazon Web Services Japan
PDF
AWS Black Belt Techシリーズ Amazon EMR
Amazon Web Services Japan
PDF
AWS 主要なサービスアップデート 6/3-11/28
崇之 清水
金融機関でのHive/Presto事例紹介
Amazon Web Services Japan
ソリューションセッション#3 ビッグデータの3つのVと4つのプロセスを支えるAWS活用法
Amazon Web Services Japan
AWS初心者向けWebinar AWSでBig Data活用
Amazon Web Services Japan
AWS Black Belt Tech シリーズ 2015 - Amazon Elastic MapReduce
Amazon Web Services Japan
クラウド上のデータ活用デザインパターン
Amazon Web Services Japan
20170803 bigdataevent
Makoto Uehara
Amazon Elastic MapReduce@Hadoop Conference Japan 2011 Fall
Shinpei Ohtani
[AWSマイスターシリーズ] Amazon Elastic MapReduce (EMR)
Amazon Web Services Japan
AWS Black Belt Techシリーズ AWS Data Pipeline
Amazon Web Services Japan
Modernizing Big Data Workload Using Amazon EMR & AWS Glue
Noritaka Sekiyama
クラウド上のデータ活用デザインパターン
Amazon Web Services Japan
20111130 10 aws-meister-emr_long-public
Amazon Web Services Japan
Amazon Elastic MapReduce with Hive/Presto ハンズオン(講義)
Amazon Web Services Japan
AWS Black Belt Tech シリーズ 2015 - AWS Data Pipeline
Amazon Web Services Japan
AWS Black Belt Online Seminar 2016 Amazon EMR
Amazon Web Services Japan
データレイクを基盤としたAWS上での機械学習サービス構築
Amazon Web Services Japan
Microservice and agile development
Kameda Harunobu
Amazon Game Tech Night #22 AWSで実現するデータレイクとアナリティクス
Amazon Web Services Japan
AWS Black Belt Techシリーズ Amazon EMR
Amazon Web Services Japan
AWS 主要なサービスアップデート 6/3-11/28
崇之 清水
Ad
More from Amazon Web Services Japan
(20)
PDF
202205 AWS Black Belt Online Seminar Amazon VPC IP Address Manager (IPAM)
Amazon Web Services Japan
PDF
202205 AWS Black Belt Online Seminar Amazon FSx for OpenZFS
Amazon Web Services Japan
PDF
202204 AWS Black Belt Online Seminar AWS IoT Device Defender
Amazon Web Services Japan
PDF
Infrastructure as Code (IaC) 談義 2022
Amazon Web Services Japan
PDF
202204 AWS Black Belt Online Seminar Amazon Connect を活用したオンコール対応の実現
Amazon Web Services Japan
PDF
202204 AWS Black Belt Online Seminar Amazon Connect Salesforce連携(第1回 CTI Adap...
Amazon Web Services Japan
PDF
Amazon Game Tech Night #25 ゲーム業界向け機械学習最新状況アップデート
Amazon Web Services Japan
PPTX
20220409 AWS BLEA 開発にあたって検討したこと
Amazon Web Services Japan
PDF
202202 AWS Black Belt Online Seminar AWS Managed Rules for AWS WAF の活用
Amazon Web Services Japan
PDF
202203 AWS Black Belt Online Seminar Amazon Connect Tasks.pdf
Amazon Web Services Japan
PDF
SaaS テナント毎のコストを把握するための「AWS Application Cost Profiler」のご紹介
Amazon Web Services Japan
PDF
Amazon QuickSight の組み込み方法をちょっぴりDD
Amazon Web Services Japan
PDF
マルチテナント化で知っておきたいデータベースのこと
Amazon Web Services Japan
PDF
機密データとSaaSは共存しうるのか!?セキュリティー重視のユーザー層を取り込む為のネットワーク通信のアプローチ
Amazon Web Services Japan
PDF
パッケージソフトウェアを簡単にSaaS化!?既存の資産を使ったSaaS化手法のご紹介
Amazon Web Services Japan
PDF
202202 AWS Black Belt Online Seminar Amazon Connect Customer Profiles
Amazon Web Services Japan
PDF
Amazon Game Tech Night #24 KPIダッシュボードを最速で用意するために
Amazon Web Services Japan
PDF
202202 AWS Black Belt Online Seminar AWS SaaS Boost で始めるSaaS開発⼊⾨
Amazon Web Services Japan
PPTX
[20220126] JAWS-UG 2022初頭までに葬ったAWSアンチパターン大紹介
Amazon Web Services Japan
PDF
202111 AWS Black Belt Online Seminar AWSで構築するSmart Mirrorのご紹介
Amazon Web Services Japan
202205 AWS Black Belt Online Seminar Amazon VPC IP Address Manager (IPAM)
Amazon Web Services Japan
202205 AWS Black Belt Online Seminar Amazon FSx for OpenZFS
Amazon Web Services Japan
202204 AWS Black Belt Online Seminar AWS IoT Device Defender
Amazon Web Services Japan
Infrastructure as Code (IaC) 談義 2022
Amazon Web Services Japan
202204 AWS Black Belt Online Seminar Amazon Connect を活用したオンコール対応の実現
Amazon Web Services Japan
202204 AWS Black Belt Online Seminar Amazon Connect Salesforce連携(第1回 CTI Adap...
Amazon Web Services Japan
Amazon Game Tech Night #25 ゲーム業界向け機械学習最新状況アップデート
Amazon Web Services Japan
20220409 AWS BLEA 開発にあたって検討したこと
Amazon Web Services Japan
202202 AWS Black Belt Online Seminar AWS Managed Rules for AWS WAF の活用
Amazon Web Services Japan
202203 AWS Black Belt Online Seminar Amazon Connect Tasks.pdf
Amazon Web Services Japan
SaaS テナント毎のコストを把握するための「AWS Application Cost Profiler」のご紹介
Amazon Web Services Japan
Amazon QuickSight の組み込み方法をちょっぴりDD
Amazon Web Services Japan
マルチテナント化で知っておきたいデータベースのこと
Amazon Web Services Japan
機密データとSaaSは共存しうるのか!?セキュリティー重視のユーザー層を取り込む為のネットワーク通信のアプローチ
Amazon Web Services Japan
パッケージソフトウェアを簡単にSaaS化!?既存の資産を使ったSaaS化手法のご紹介
Amazon Web Services Japan
202202 AWS Black Belt Online Seminar Amazon Connect Customer Profiles
Amazon Web Services Japan
Amazon Game Tech Night #24 KPIダッシュボードを最速で用意するために
Amazon Web Services Japan
202202 AWS Black Belt Online Seminar AWS SaaS Boost で始めるSaaS開発⼊⾨
Amazon Web Services Japan
[20220126] JAWS-UG 2022初頭までに葬ったAWSアンチパターン大紹介
Amazon Web Services Japan
202111 AWS Black Belt Online Seminar AWSで構築するSmart Mirrorのご紹介
Amazon Web Services Japan
NetflixにおけるPresto/Spark活用事例
1.
1 NetflixにおけるPresto/Spark活用事例 2016/02/08 Ryosuke Iwanaga Solutions Architect,
Amazon Web Services Japan
2.
2 Amazon EMR -
1クリックでHadoop/Spark • 分散処理基盤 – クラスタを簡単に構築 して破棄 • 分散処理アプリ – 使いたいアプリを選ぶ だけ • Hadoop 2.7.1 • Hive 1.0.0 • Pig 0.14.0 • Mahout 0.11.0 • Oozie 4.2.0 • Spark 1.6.0 • Presto 0.130 • Zeppelin 0.5.5 • Hue 3.7.1更新の速い(ほぼ月1ペース) ディストリビューション
3.
3 Amazon EMR -
1クリックでHadoop/Spark • 分散処理基盤 – クラスタを簡単に構築 して破棄 • 分散処理アプリ – 使いたいアプリを選ぶ だけ • Hadoop 2.7.1 • Hive 1.0.0 • Pig 0.14.0 • Mahout 0.11.0 • Oozie 4.2.0 • Spark 1.6.0 • Presto 0.130 • Zeppelin 0.5.5 • Hue 3.7.1
4.
© 2015, Amazon
Web Services, Inc. or its Affiliates. All rights reserved. Eva Tse and Daniel Weeks, Netflix October 2015 BDT303 Running Presto and Spark on the Netflix Big Data Platform
5.
Netflixで鍵となるビジネス上のメトリクス 6500万人以上 の会員 50の国 1000以上の デバイス をサポート 100億 時間 / 四半期
6.
我々のBig Dataの規模感 トータル ~25PB
のデータウェアがAmazon S3に 読み出し ~10% (データ/日) 書き込み ~10% (読み出しデータ/日) ~ 5500億イベント/日 ~ 350のアクティブなプラットフォームユーザ
7.
Amazon S3をデータウェアストレージとして使う Amazon S3を唯一の正しいデータソースに(HDFSではなく) イレブン9の耐久性と99.99%の可用性が設計されている コンピュートとストレージを分離 鍵となる追加機能 -
複数の多様なクラスタ - Red-Blackデプロイで簡単に更新 S3
8.
分析 ETL 対話的なデータ探索 対話的なデータスライス リアルタイム分析、機械学習、他にも 異なるBig Dataの処理要件
10.
なぜ我々はPrestoを愛しているか? Hadoopとの親和性 - Hive
metastoreとの連携 AWS上で動かしやすい - Amazon S3と簡単に連携 スケーラブル - ペタバイトの規模で動作する ユーザが使いやすい - ANSI SQL オープンソース - Java! 高速
12.
利用状況の統計 ~3500 queries/day > 90%
13.
我々のデプロイ Version 0.114 + いくつかのパッチ +
1つの未公開パッチ (Parquet vectorized read integration) Amazon EMRのBootstrap Actionでデプロイ Hadoop YARNのクラスタとは別のクラスタ Hadoopのサービスは使わない Amazon EMRをクラスタ管理機能として活用
14.
2つの本番クラスタ リソースを隔離 Ad-hocクラスタ 1 coordinator (r3.4xl)
+ 225 workers (r3.4xl) アプリケーション専用クラスタ 1 coordinator (r3.4xl) + 4 workers + dynamic workers (r3.xl, r3.2xl, r3.4xl) Netflix spinnaker APIで、動的にクラスタサイズを変更
15.
動的なクラスタサイズ変更
17.
なぜSpark? バッチジョブ (Pig, Hive) •
ETLジョブ • レポートや、その他分析 対話的なジョブ (Presto) 対話的な機械学習ジョブ (Spark) プログラムが必要なユースケース
18.
デプロイ @ Netflix Spark
on Mesos • 独自のAMI • 全てBDAS (Berkeley Data Analytics Stack) • オンラインストリーム分析 Spark on YARN • Spark as a service • Amazon EMR上のYARNのアプリケーション • オフラインのバッチ分析
19.
マルチテナント
20.
Dynamic Allocation [SPARK-6954]
21.
複数バージョンをサポート $ spark-shell –ver
1.5 … s3://…/spark-1.4.tar.gz s3://…/spark-1.5.tar.gz s3://…/spark-1.5-custom.tar.gz s3://…/1.5/spark-defaults.conf s3://…/h2prod/yarn-site.xml s3://../h2prod/core-site.xml … 設定アプリケーション
22.
22 Summary • Amazon EMR
+ Amazon S3 – コンピュートとストレージを分離 – 25 PBのAmazon S3のデータをAmazon EMRのクラスタから操作 • Presto at Netflix – インタラクティブ用途、90%のクエリが1分未満 – Amazon EMRで構築、動的なサイジングも • Spark at Netflix – 機械学習バッチ、YARNでマルチテナント、Dynamic Allocation – Amazon EMRのYARNに、任意のバージョンのSparkで実行
23.
23
Download