1
NetflixにおけるPresto/Spark活用事例
2016/02/08
Ryosuke Iwanaga
Solutions Architect, Amazon Web Services Japan
2
Amazon EMR - 1クリックでHadoop/Spark
• 分散処理基盤
– クラスタを簡単に構築
して破棄
• 分散処理アプリ
– 使いたいアプリを選ぶ
だけ
• Hadoop 2.7.1
• Hive 1.0.0
• Pig 0.14.0
• Mahout 0.11.0
• Oozie 4.2.0
• Spark 1.6.0
• Presto 0.130
• Zeppelin 0.5.5
• Hue 3.7.1更新の速い(ほぼ月1ペース)
ディストリビューション
3
Amazon EMR - 1クリックでHadoop/Spark
• 分散処理基盤
– クラスタを簡単に構築
して破棄
• 分散処理アプリ
– 使いたいアプリを選ぶ
だけ
• Hadoop 2.7.1
• Hive 1.0.0
• Pig 0.14.0
• Mahout 0.11.0
• Oozie 4.2.0
• Spark 1.6.0
• Presto 0.130
• Zeppelin 0.5.5
• Hue 3.7.1
© 2015, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Eva Tse and Daniel Weeks, Netflix
October 2015
BDT303
Running Presto and Spark on the
Netflix
Big Data Platform
Netflixで鍵となるビジネス上のメトリクス
6500万人以上
の会員
50の国
1000以上の
デバイス
をサポート
100億
時間 / 四半期
我々のBig Dataの規模感
トータル ~25PB のデータウェアがAmazon S3に
読み出し ~10% (データ/日)
書き込み ~10% (読み出しデータ/日)
~ 5500億イベント/日
~ 350のアクティブなプラットフォームユーザ
Amazon S3をデータウェアストレージとして使う
Amazon S3を唯一の正しいデータソースに(HDFSではなく)
イレブン9の耐久性と99.99%の可用性が設計されている
コンピュートとストレージを分離
鍵となる追加機能
- 複数の多様なクラスタ
- Red-Blackデプロイで簡単に更新
S3
分析
ETL
対話的なデータ探索
対話的なデータスライス
リアルタイム分析、機械学習、他にも
異なるBig Dataの処理要件
NetflixにおけるPresto/Spark活用事例
なぜ我々はPrestoを愛しているか?
Hadoopとの親和性 - Hive metastoreとの連携
AWS上で動かしやすい - Amazon S3と簡単に連携
スケーラブル - ペタバイトの規模で動作する
ユーザが使いやすい - ANSI SQL
オープンソース - Java!
高速
NetflixにおけるPresto/Spark活用事例
利用状況の統計
~3500 queries/day
> 90%
我々のデプロイ
Version 0.114
+ いくつかのパッチ
+ 1つの未公開パッチ (Parquet vectorized read integration)
Amazon EMRのBootstrap Actionでデプロイ
Hadoop YARNのクラスタとは別のクラスタ
Hadoopのサービスは使わない
Amazon EMRをクラスタ管理機能として活用
2つの本番クラスタ
リソースを隔離
Ad-hocクラスタ
1 coordinator (r3.4xl) + 225 workers (r3.4xl)
アプリケーション専用クラスタ
1 coordinator (r3.4xl) + 4 workers + dynamic workers (r3.xl,
r3.2xl, r3.4xl)
Netflix spinnaker APIで、動的にクラスタサイズを変更
動的なクラスタサイズ変更
NetflixにおけるPresto/Spark活用事例
なぜSpark?
バッチジョブ (Pig, Hive)
• ETLジョブ
• レポートや、その他分析
対話的なジョブ (Presto)
対話的な機械学習ジョブ (Spark)
プログラムが必要なユースケース
デプロイ @ Netflix
Spark on Mesos
• 独自のAMI
• 全てBDAS (Berkeley Data Analytics Stack)
• オンラインストリーム分析
Spark on YARN
• Spark as a service
• Amazon EMR上のYARNのアプリケーション
• オフラインのバッチ分析
マルチテナント
Dynamic Allocation [SPARK-6954]
複数バージョンをサポート
$ spark-shell –ver 1.5 …
s3://…/spark-1.4.tar.gz
s3://…/spark-1.5.tar.gz
s3://…/spark-1.5-custom.tar.gz
s3://…/1.5/spark-defaults.conf
s3://…/h2prod/yarn-site.xml
s3://../h2prod/core-site.xml
…
設定アプリケーション
22
Summary
• Amazon EMR + Amazon S3
– コンピュートとストレージを分離
– 25 PBのAmazon S3のデータをAmazon EMRのクラスタから操作
• Presto at Netflix
– インタラクティブ用途、90%のクエリが1分未満
– Amazon EMRで構築、動的なサイジングも
• Spark at Netflix
– 機械学習バッチ、YARNでマルチテナント、Dynamic Allocation
– Amazon EMRのYARNに、任意のバージョンのSparkで実行
23

More Related Content

PDF
Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ (Hadoop / Spark Conference Japan 2019)
PDF
SolrとElasticsearchを比べてみよう
PDF
Apache Spark + Arrow
PDF
HDFSのスケーラビリティの限界を突破するためのさまざまな取り組み | Hadoop / Spark Conference Japan 2019 #hc...
PDF
爆速クエリエンジン”Presto”を使いたくなる話
PDF
超実践 Cloud Spanner 設計講座
PPTX
PostgreSQL 12は ここがスゴイ! ~性能改善やpluggable storage engineなどの新機能を徹底解説~ (NTTデータ テクノ...
PDF
アーキテクチャから理解するPostgreSQLのレプリケーション
Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ (Hadoop / Spark Conference Japan 2019)
SolrとElasticsearchを比べてみよう
Apache Spark + Arrow
HDFSのスケーラビリティの限界を突破するためのさまざまな取り組み | Hadoop / Spark Conference Japan 2019 #hc...
爆速クエリエンジン”Presto”を使いたくなる話
超実践 Cloud Spanner 設計講座
PostgreSQL 12は ここがスゴイ! ~性能改善やpluggable storage engineなどの新機能を徹底解説~ (NTTデータ テクノ...
アーキテクチャから理解するPostgreSQLのレプリケーション

What's hot (20)

PPTX
ビッグデータ処理データベースの全体像と使い分け
2018年version
PDF
PostgreSQLのリカバリ超入門(もしくはWAL、CHECKPOINT、オンラインバックアップの仕組み)
PDF
AWSのログ管理ベストプラクティス
PDF
AWS Black Belt Online Seminar 2017 Amazon DynamoDB
PDF
リクルートのビッグデータ活用基盤とビッグデータ活用のためのメタデータ管理Webのご紹介
PDF
ストリーム処理を支えるキューイングシステムの選び方
PDF
20210216 AWS Black Belt Online Seminar AWS Database Migration Service
PPTX
世の中のPostgreSQLエンジニアのpsql設定(第34回PostgreSQLアンカンファレンス@オンライン 発表資料)
PDF
データウェアハウスモデリング入門(ダイジェスト版)(事前公開版)
PDF
ヤフー社内でやってるMySQLチューニングセミナー大公開
PDF
MongoDB〜その性質と利用場面〜
PPTX
Argo CD Deep Dive
PDF
オンプレミスRDBMSをAWSへ移行する手法
PPTX
BigQuery Query Optimization クエリ高速化編
PDF
各種データベースの特徴とパフォーマンス比較
PDF
20210127 AWS Black Belt Online Seminar Amazon Redshift 運用管理
PDF
AWS で Presto を徹底的に使いこなすワザ
PDF
Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)
PPTX
ポスト・ラムダアーキテクチャの切り札? Apache Hudi(NTTデータ テクノロジーカンファレンス 2020 発表資料)
PDF
Docker入門-基礎編 いまから始めるDocker管理【2nd Edition】
ビッグデータ処理データベースの全体像と使い分け
2018年version
PostgreSQLのリカバリ超入門(もしくはWAL、CHECKPOINT、オンラインバックアップの仕組み)
AWSのログ管理ベストプラクティス
AWS Black Belt Online Seminar 2017 Amazon DynamoDB
リクルートのビッグデータ活用基盤とビッグデータ活用のためのメタデータ管理Webのご紹介
ストリーム処理を支えるキューイングシステムの選び方
20210216 AWS Black Belt Online Seminar AWS Database Migration Service
世の中のPostgreSQLエンジニアのpsql設定(第34回PostgreSQLアンカンファレンス@オンライン 発表資料)
データウェアハウスモデリング入門(ダイジェスト版)(事前公開版)
ヤフー社内でやってるMySQLチューニングセミナー大公開
MongoDB〜その性質と利用場面〜
Argo CD Deep Dive
オンプレミスRDBMSをAWSへ移行する手法
BigQuery Query Optimization クエリ高速化編
各種データベースの特徴とパフォーマンス比較
20210127 AWS Black Belt Online Seminar Amazon Redshift 運用管理
AWS で Presto を徹底的に使いこなすワザ
Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)
ポスト・ラムダアーキテクチャの切り札? Apache Hudi(NTTデータ テクノロジーカンファレンス 2020 発表資料)
Docker入門-基礎編 いまから始めるDocker管理【2nd Edition】
Ad

Similar to NetflixにおけるPresto/Spark活用事例 (20)

PDF
金融機関でのHive/Presto事例紹介
PDF
ソリューションセッション#3 ビッグデータの3つのVと4つのプロセスを支えるAWS活用法
PDF
AWS初心者向けWebinar AWSでBig Data活用
PDF
AWS Black Belt Tech シリーズ 2015 - Amazon Elastic MapReduce
PDF
クラウド上のデータ活用デザインパターン
PPTX
20170803 bigdataevent
PDF
Amazon Elastic MapReduce@Hadoop Conference Japan 2011 Fall
PDF
[AWSマイスターシリーズ] Amazon Elastic MapReduce (EMR)
PDF
AWS Black Belt Techシリーズ AWS Data Pipeline
PDF
Modernizing Big Data Workload Using Amazon EMR & AWS Glue
PDF
クラウド上のデータ活用デザインパターン
PDF
20111130 10 aws-meister-emr_long-public
PDF
Amazon Elastic MapReduce with Hive/Presto ハンズオン(講義)
PDF
AWS Black Belt Tech シリーズ 2015 - AWS Data Pipeline
PDF
AWS Black Belt Online Seminar 2016 Amazon EMR
PDF
データレイクを基盤としたAWS上での機械学習サービス構築
PPTX
Microservice and agile development
PDF
Amazon Game Tech Night #22 AWSで実現するデータレイクとアナリティクス
PDF
AWS Black Belt Techシリーズ Amazon EMR
PDF
AWS 主要なサービスアップデート 6/3-11/28
金融機関でのHive/Presto事例紹介
ソリューションセッション#3 ビッグデータの3つのVと4つのプロセスを支えるAWS活用法
AWS初心者向けWebinar AWSでBig Data活用
AWS Black Belt Tech シリーズ 2015 - Amazon Elastic MapReduce
クラウド上のデータ活用デザインパターン
20170803 bigdataevent
Amazon Elastic MapReduce@Hadoop Conference Japan 2011 Fall
[AWSマイスターシリーズ] Amazon Elastic MapReduce (EMR)
AWS Black Belt Techシリーズ AWS Data Pipeline
Modernizing Big Data Workload Using Amazon EMR & AWS Glue
クラウド上のデータ活用デザインパターン
20111130 10 aws-meister-emr_long-public
Amazon Elastic MapReduce with Hive/Presto ハンズオン(講義)
AWS Black Belt Tech シリーズ 2015 - AWS Data Pipeline
AWS Black Belt Online Seminar 2016 Amazon EMR
データレイクを基盤としたAWS上での機械学習サービス構築
Microservice and agile development
Amazon Game Tech Night #22 AWSで実現するデータレイクとアナリティクス
AWS Black Belt Techシリーズ Amazon EMR
AWS 主要なサービスアップデート 6/3-11/28
Ad

More from Amazon Web Services Japan (20)

PDF
202205 AWS Black Belt Online Seminar Amazon VPC IP Address Manager (IPAM)
PDF
202205 AWS Black Belt Online Seminar Amazon FSx for OpenZFS
PDF
202204 AWS Black Belt Online Seminar AWS IoT Device Defender
PDF
Infrastructure as Code (IaC) 談義 2022
PDF
202204 AWS Black Belt Online Seminar Amazon Connect を活用したオンコール対応の実現
PDF
202204 AWS Black Belt Online Seminar Amazon Connect Salesforce連携(第1回 CTI Adap...
PDF
Amazon Game Tech Night #25 ゲーム業界向け機械学習最新状況アップデート
PPTX
20220409 AWS BLEA 開発にあたって検討したこと
PDF
202202 AWS Black Belt Online Seminar AWS Managed Rules for AWS WAF の活用
PDF
202203 AWS Black Belt Online Seminar Amazon Connect Tasks.pdf
PDF
SaaS テナント毎のコストを把握するための「AWS Application Cost Profiler」のご紹介
PDF
Amazon QuickSight の組み込み方法をちょっぴりDD
PDF
マルチテナント化で知っておきたいデータベースのこと
PDF
機密データとSaaSは共存しうるのか!?セキュリティー重視のユーザー層を取り込む為のネットワーク通信のアプローチ
PDF
パッケージソフトウェアを簡単にSaaS化!?既存の資産を使ったSaaS化手法のご紹介
PDF
202202 AWS Black Belt Online Seminar Amazon Connect Customer Profiles
PDF
Amazon Game Tech Night #24 KPIダッシュボードを最速で用意するために
PDF
202202 AWS Black Belt Online Seminar AWS SaaS Boost で始めるSaaS開発⼊⾨
PPTX
[20220126] JAWS-UG 2022初頭までに葬ったAWSアンチパターン大紹介
PDF
202111 AWS Black Belt Online Seminar AWSで構築するSmart Mirrorのご紹介
202205 AWS Black Belt Online Seminar Amazon VPC IP Address Manager (IPAM)
202205 AWS Black Belt Online Seminar Amazon FSx for OpenZFS
202204 AWS Black Belt Online Seminar AWS IoT Device Defender
Infrastructure as Code (IaC) 談義 2022
202204 AWS Black Belt Online Seminar Amazon Connect を活用したオンコール対応の実現
202204 AWS Black Belt Online Seminar Amazon Connect Salesforce連携(第1回 CTI Adap...
Amazon Game Tech Night #25 ゲーム業界向け機械学習最新状況アップデート
20220409 AWS BLEA 開発にあたって検討したこと
202202 AWS Black Belt Online Seminar AWS Managed Rules for AWS WAF の活用
202203 AWS Black Belt Online Seminar Amazon Connect Tasks.pdf
SaaS テナント毎のコストを把握するための「AWS Application Cost Profiler」のご紹介
Amazon QuickSight の組み込み方法をちょっぴりDD
マルチテナント化で知っておきたいデータベースのこと
機密データとSaaSは共存しうるのか!?セキュリティー重視のユーザー層を取り込む為のネットワーク通信のアプローチ
パッケージソフトウェアを簡単にSaaS化!?既存の資産を使ったSaaS化手法のご紹介
202202 AWS Black Belt Online Seminar Amazon Connect Customer Profiles
Amazon Game Tech Night #24 KPIダッシュボードを最速で用意するために
202202 AWS Black Belt Online Seminar AWS SaaS Boost で始めるSaaS開発⼊⾨
[20220126] JAWS-UG 2022初頭までに葬ったAWSアンチパターン大紹介
202111 AWS Black Belt Online Seminar AWSで構築するSmart Mirrorのご紹介

NetflixにおけるPresto/Spark活用事例