SlideShare a Scribd company logo
Azure Databricksで始めるSpark
構築から活用までの第一歩
株式会社PLAN-B
テック&データラボ 技術統括 得上 竜一
システム開発部 システム開発ユニット リーダー 藤本 永一
Azure Databricksの概要
Azure Databricksの構成と使い始めるまでの流れ
Azure Databricksのリージョン
Azure Databricksの価格
[DEMO]Azure DatabricksでのDeep Learning
Azure Databricksでできること
Agenda
Azure Databricksの概要
Azure Databricksの構成と使い始めるまでの流れ
Azure Databricksのリージョン
Azure Databricksの価格
[DEMO]Azure DatabricksでのDeep Learning
Azure Databricksでできること
Agenda
ビッグデータ
分析
リアルタイム
分析
機械学習
リアルタイムな
共同作業
データの可視化
ワークフローの
構築
様々な
データソース
数分で構築
これらを開発・運用するために
この環境が
Azure Databricksでできること
Azure Databricksの概要
Azure Databricksの構成と使い始めるまでの流れ
Azure Databricksのリージョン
Azure Databricksの価格
[DEMO]Azure DatabricksでのDeep Learning
Azure Databricksでできること
Agenda
Azureに最適化・統合されたDatabricks
Azure Databricksとは
Azure Databricksとは
Azureに最適化・統合されたDatabricks
インメモリでの
高速処理
便利なコンポーネント
が付属しているため
あらゆるユースケース
に対応できる
Spark
SQL
Spark Core
Spark
Streaming
MLlib GraphX
Apache Sparkとは
ビッグデータの並列分散処理フレームワーク
インメモリでの
高速処理
便利なコンポーネント
が付属しているため
あらゆるユースケース
に対応できる
Spark
SQL
Spark Core
Spark
Streaming
MLlib GraphX
Apache Sparkとは
ビッグデータの並列分散処理フレームワーク
インメモリでの
高速処理
便利なコンポーネント
が付属しているため
あらゆるユースケース
に対応できる
Spark
SQL
Spark Core
Spark
Streaming
MLlib GraphX
Apache Sparkとは
ビッグデータの並列分散処理フレームワーク
インメモリでの
高速処理
便利なコンポーネント
が付属しているため
あらゆるユースケース
に対応できる
Spark
SQL
Spark Core
Spark
Streaming
MLlib GraphX
Apache Sparkとは
ビッグデータの並列分散処理フレームワーク
インメモリでの
高速処理
便利なコンポーネント
が付属しているため
あらゆるユースケース
に対応できる
Spark
SQL
Spark Core
Spark
Streaming
MLlib GraphX
Apache Sparkとは
ビッグデータの並列分散処理フレームワーク
インメモリでの
高速処理
便利なコンポーネント
が付属しているため
あらゆるユースケース
に対応できる
Spark
SQL
Spark Core
Spark
Streaming
MLlib GraphX
Apache Sparkとは
ビッグデータの並列分散処理フレームワーク
使える言語
Spark
SQL
Spark Core
Spark
Streaming
MLlib GraphX
Apache Sparkとは
ビッグデータの並列分散処理フレームワーク
SQL
Azure Databricksとは
Azureに最適化・統合されたDatabricks
WEBから利用可能
インフラの管理不要
スケールアップ・アウ
トが無停止で可能
Notebookにより
インタラクティブに
分析・開発可能
多彩なデータソース
Clusters
Spark
Jobs Notebooks Data
Databricksとは
Apache SparkのPaaS
Azure Databricksとは
Azureに最適化・統合されたDatabricks
Azure Databricksとは
Azureに最適化・統合されたDatabricks
Azure Databricksとは
Azureに最適化・統合されたDatabricks
Azure Databricksの概要
Azure Databricksの構成と使い始めるまでの流れ
Azure Databricksのリージョン
Azure Databricksの価格
[DEMO]Azure DatabricksでのDeep Learning
Azure Databricksでできること
Agenda
Workspace
Azure
Clusters Jobs
Note
books
Users Data
Azure Databricksの構成
Azure Databricksの構成
Workspace
Azure
Clusters Jobs
Note
books
Users Data
Azure Databricksの構成
Workspace
Azure
Clusters Jobs
Note
books
Users Data
Azure Databricksの構成
Workspace
Azure
Clusters Jobs
Note
books
Users Data
Azure Databricksの構成
Workspace
Azure
Clusters Jobs
Note
books
Users Data
Azure Databricksの構成
Workspace
Azure
Clusters Jobs
Note
books
Users Data
Azure Databricksの構成
Workspace
Azure
Clusters Jobs
Note
books
Users Data
Azure Databricksの使い始めまでの流れ
Workspace, Cluster, Notebookの作成
Workspace
Azure
Clusters Jobs
Note
books
Users Data
Azure Databricksの使い始めまでの流れ
Workspaceの作成
Workspace
Azure
Clusters Jobs
Note
books
Users Data
Azure Databricksの使い始めまでの流れ
Workspaceの作成
Azure Databricksの使い始めまでの流れ
Workspaceの作成
Azure Databricksの使い始めまでの流れ
Workspaceの作成
Azure Databricksの使い始めまでの流れ
Workspaceの作成
Azure Databricksの使い始めまでの流れ
Clusterの作成
Workspace
Azure
Clusters Jobs
Note
books
Users Data
Azure Databricksの使い始めまでの流れ
Clusterの作成
Azure Databricksの使い始めまでの流れ
Clusterの作成
Azure Databricksの使い始めまでの流れ
Notebookの作成
Workspace
Azure
Clusters Jobs
Note
books
Users Data
Azure Databricksの使い始めまでの流れ
Notebookの作成
Azure Databricksの使い始めまでの流れ
Notebookの作成
Azure Databricksの使い始めまでの流れ
Workspace, Cluster, Notebookの作成
Workspace
Azure
Clusters Jobs
Note
books
Users Data
Azure Databricksの概要
Azure Databricksの構成と使い始めるまでの流れ
Azure Databricksのリージョン
Azure Databricksの価格
[DEMO]Azure DatabricksでのDeep Learning
Azure Databricksでできること
Agenda
Azure Databricksで始めるSpark 構築から活用までの第一歩
Azure Databricksの概要
Azure Databricksの構成と使い始めるまでの流れ
Azure Databricksのリージョン
Azure Databricksの価格
[DEMO]Azure DatabricksでのDeep Learning
Azure Databricksでできること
Agenda
※2018/09 時点の情報
Azureのリージョン
※2018/09 時点の情報
Azure Databricksの使えるリージョン
※2018/09 時点の情報
Azure Databricksの使えるリージョン
(2018年4Qリリース予定)
Azure Databricksの概要
Azure Databricksの構成と使い始めるまでの流れ
Azure Databricksのリージョン
Azure Databricksの価格
[DEMO]Azure DatabricksでのDeep Learning
Azure Databricksでできること
Agenda
インスタンス ストレージ
VMの
料金
DBUの
料金
BLOB
ストレージの
料金
起動した分だけ 保存した分だけ
使った分だけ
+ = お支払い
Azure Databricksの価格
VM料金+ DBU料金 + ストレージ料金
Azure Databricksの価格
VM料金+ DBU料金 + ストレージ料金
インスタンス ストレージ
VMの
料金
DBUの
料金
BLOB
ストレージの
料金
起動した分だけ 保存した分だけ
使った分だけ
+ = お支払い
※2018/09 時点の情報
Azure Databricksの価格
DBU料金はワークロードで違う
DBU
※ 1 時間あたりの処理能力の単位
データ エンジニアリング
ジョブ スケジューラ等によって実行される場合
自動起動のバッチ処理など
データ分析
アドホック コマンドなどのインタラクティブな
機能がクラスターで実行される場合
※2018/09 時点の情報
Azure Databricksの価格
インスタンス料金例
Azure Databricksの価格
VM料金+ DBU料金 + ストレージ料金
インスタンス ストレージ
VMの
料金
DBUの
料金
BLOB
ストレージの
料金
起動した分だけ 保存した分だけ
使った分だけ
+ = お支払い
インスタンス
VMの料金
DBUの料金
例)データサイエンティストが分析のためNotebookを利用
業務時間中(10:00〜18:00)のみ起動
月にD3インスタンスを4台×8時間×20営業日の場合
※Standardレベル、データ分析ワークロード
35.40円 × 4台 × 160時間 = 22,656円/月
33.60円 × 4台 × 160時間 = 21,504円/月
44,160円/月
※2018/09 時点の情報
Azure Databricksの価格
インスタンス料金例
インスタンス
VMの料金
DBUの料金
例)日時のETL処理をジョブスケジューラによって定期実行
月にD3インスタンスを4台×2時間×30日の場合
※Standardレベル、データ エンジニアリングワークロード
35.40円 × 4台 × 60時間 = 8,496円/月
16.80円 × 4台 × 60時間 = 4,032円/月
12,528円/月
※2018/09 時点の情報
Azure Databricksの価格
インスタンス料金例
Azure Databricksの価格
VM料金+ DBU料金 + ストレージ料金
インスタンス ストレージ
VMの
料金
DBUの
料金
BLOB
ストレージの
料金
起動した分だけ 保存した分だけ
使った分だけ
+ = お支払い
Azure Databricksの概要
Azure Databricksの構成
Azure Databricksのリージョン
Azure Databricksの価格
Azure Databricksの使い始めまでの流れ
Azure Databricksでできること
Agenda
ビッグデータ
分析
リアルタイム
分析
機械学習
リアルタイムな
共同作業
データの可視化
ワークフローの
構築
様々な
データソース
数分で構築
これらを開発・運用するために
この環境が
Azure Databricksでできること
Azure Databricksでできること
Azure Databricksのはじめ方
• 10分でSparkのクラスター立ち上げることができる
• 必要なときに必要なクラスタが立ち上がり、
バッチ処理をこなせる
• Notebookで共同作業ができる
1. Workspaceを作る
2. Clusterを立ち上げる
3. Notebookを書く
Key Takeaway
お持ち帰りいただくもの
Azure Databricksで始めるSpark
構築から活用までの第一歩
株式会社PLAN-B
テック&データラボ 技術統括 得上 竜一
システム開発部 システム開発ユニット リーダー 藤本 永一
Azure Databricksで始めるSpark
構築から活用までの第一歩
株式会社PLAN-B
テック&データラボ 技術統括 得上 竜一
システム開発部 システム開発ユニット リーダー 藤本 永一

More Related Content

PDF
Data platformdesign
PPTX
アプリケーション開発者のためのAzure Databricks入門
PPT
インフラエンジニアのためのcassandra入門
PPTX
今こそ知りたいSpring Batch(Spring Fest 2020講演資料)
PDF
Apache Spark の紹介(前半:Sparkのキホン)
PDF
DMBOKをベースにしたデータマネジメント
PDF
バッチ処理にバインド変数はもうやめません? ~|バッチ処理の突発遅延を題材にして考えてみる~
PDF
GraphQL入門 (AWS AppSync)
Data platformdesign
アプリケーション開発者のためのAzure Databricks入門
インフラエンジニアのためのcassandra入門
今こそ知りたいSpring Batch(Spring Fest 2020講演資料)
Apache Spark の紹介(前半:Sparkのキホン)
DMBOKをベースにしたデータマネジメント
バッチ処理にバインド変数はもうやめません? ~|バッチ処理の突発遅延を題材にして考えてみる~
GraphQL入門 (AWS AppSync)

What's hot (20)

PDF
SQL Server チューニング基礎
PPTX
GraphQLのsubscriptionで出来ること
PDF
超実践 Cloud Spanner 設計講座
PPTX
Databricksを初めて使う人に向けて.pptx
PPTX
負荷分散だけじゃないELBのメリット
PDF
Google Cloud のネットワークとロードバランサ
PDF
普通のRailsアプリをdockerで本番運用する知見
PPTX
いまさら、AWSのネットワーク設計
PDF
20210216 AWS Black Belt Online Seminar AWS Database Migration Service
PDF
[B31] LOGMinerってレプリケーションソフトで使われているけどどうなってる? by Toshiya Morita
PPTX
Sql server のバックアップとリストアの基礎
PDF
既存Redshift/ETLからSpectrum/Glueへの移行を徹底解明!
PDF
MongoDB概要:金融業界でのMongoDB
PPTX
データ分析基盤を支えるエンジニアリング
PDF
クラウドのためのアーキテクチャ設計 - ベストプラクティス -
PDF
クラウド時代だからSpring-Retryフレームワーク
PDF
Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ (Hadoop / Spark Conference Japan 2019)
PDF
20200617 AWS Black Belt Online Seminar Amazon Athena
PDF
コンテナ未経験新人が学ぶコンテナ技術入門
PDF
シンプルでシステマチックな Oracle Database, Exadata 性能分析
SQL Server チューニング基礎
GraphQLのsubscriptionで出来ること
超実践 Cloud Spanner 設計講座
Databricksを初めて使う人に向けて.pptx
負荷分散だけじゃないELBのメリット
Google Cloud のネットワークとロードバランサ
普通のRailsアプリをdockerで本番運用する知見
いまさら、AWSのネットワーク設計
20210216 AWS Black Belt Online Seminar AWS Database Migration Service
[B31] LOGMinerってレプリケーションソフトで使われているけどどうなってる? by Toshiya Morita
Sql server のバックアップとリストアの基礎
既存Redshift/ETLからSpectrum/Glueへの移行を徹底解明!
MongoDB概要:金融業界でのMongoDB
データ分析基盤を支えるエンジニアリング
クラウドのためのアーキテクチャ設計 - ベストプラクティス -
クラウド時代だからSpring-Retryフレームワーク
Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ (Hadoop / Spark Conference Japan 2019)
20200617 AWS Black Belt Online Seminar Amazon Athena
コンテナ未経験新人が学ぶコンテナ技術入門
シンプルでシステマチックな Oracle Database, Exadata 性能分析
Ad

Similar to Azure Databricksで始めるSpark 構築から活用までの第一歩 (7)

PDF
平成最後の1月ですし、Databricksでもやってみましょうか
PDF
Azure Databricks 概要
PDF
Databricks の始め方
PDF
[Microsoft Tech Summit 2018] Azure Machine Learning サービスと Azure Databricks で実...
PDF
101210_データ分析初学者から見たAzure Databricks
PPTX
Microsoft Azure Databricksターゲットエンドポイントとしての利用
PDF
Spark Analytics - スケーラブルな分散処理
平成最後の1月ですし、Databricksでもやってみましょうか
Azure Databricks 概要
Databricks の始め方
[Microsoft Tech Summit 2018] Azure Machine Learning サービスと Azure Databricks で実...
101210_データ分析初学者から見たAzure Databricks
Microsoft Azure Databricksターゲットエンドポイントとしての利用
Spark Analytics - スケーラブルな分散処理
Ad

More from Ryuichi Tokugami (20)

PPTX
Attention is all you need!!! を入門する前に
PDF
de:code 2019 AI04 あなたがコルタナさんに「ラーメン」と尋ねたとき、それはコルタナさんに何を求めていますか?
PDF
改めまして、Cognitive ToolKit です。
PDF
Azure MLで機械学習をやってみよう
PDF
UserDataでEC2をより便利に (2013-07-25 Jawsug中央線 第0回)
PDF
初めてのSimpleDB (2013-06-22 JAWS-UG 大阪 第8回 )
PDF
Elastic beanstalk AWS 初心者から 次の一歩へ (2013-04-27 JAWS-UG つくば 第1回 勉強会)
PDF
Autoscalingとか
PPTX
JAWS-UG アップデート (2012-09-14 JAWS-UG 第13回 勉強会 )
PDF
"restaurant démonstration" (2012-09-01 クラウドごった煮 第6回 AWS枠)
KEY
AWSアップデート (2012-08-27 JAWS-UG 札幌 第7回 勉強会)
PDF
AWS上にサービスを作る (2012-06-22 JAWS-UG 福岡)
PDF
Talking about love for DynamoDB & SimpleDB (2012-06-05 CloudDB Night)
PDF
CloudSearch初披露 (2012-05-18 JAWS-UG 札幌 第6回 勉強会)
PDF
Aws禅 (2012-05-13 JAWS-UG 子ども会)
PDF
Counter Table Pattern & Temporary Table Pattern (2012-04-13 CDP Night)
PDF
サンタクラウド番外編 (2011-12-22 第11回 AWS User Group - Japan 東京勉強会)
PDF
S3解説 - 第1回 ビギナー編 AWS User Group - Japan 東京勉強会
PDF
AWSを使いこなしてコスト削減
Attention is all you need!!! を入門する前に
de:code 2019 AI04 あなたがコルタナさんに「ラーメン」と尋ねたとき、それはコルタナさんに何を求めていますか?
改めまして、Cognitive ToolKit です。
Azure MLで機械学習をやってみよう
UserDataでEC2をより便利に (2013-07-25 Jawsug中央線 第0回)
初めてのSimpleDB (2013-06-22 JAWS-UG 大阪 第8回 )
Elastic beanstalk AWS 初心者から 次の一歩へ (2013-04-27 JAWS-UG つくば 第1回 勉強会)
Autoscalingとか
JAWS-UG アップデート (2012-09-14 JAWS-UG 第13回 勉強会 )
"restaurant démonstration" (2012-09-01 クラウドごった煮 第6回 AWS枠)
AWSアップデート (2012-08-27 JAWS-UG 札幌 第7回 勉強会)
AWS上にサービスを作る (2012-06-22 JAWS-UG 福岡)
Talking about love for DynamoDB & SimpleDB (2012-06-05 CloudDB Night)
CloudSearch初披露 (2012-05-18 JAWS-UG 札幌 第6回 勉強会)
Aws禅 (2012-05-13 JAWS-UG 子ども会)
Counter Table Pattern & Temporary Table Pattern (2012-04-13 CDP Night)
サンタクラウド番外編 (2011-12-22 第11回 AWS User Group - Japan 東京勉強会)
S3解説 - 第1回 ビギナー編 AWS User Group - Japan 東京勉強会
AWSを使いこなしてコスト削減

Azure Databricksで始めるSpark 構築から活用までの第一歩

Editor's Notes

  • #2: Azure Databricksで始めるSpark構築から活用までの第一歩
  • #3: この流れで説明させていただきます
  • #4: まずは、AzureDatabricksで何ができるのかをご説明します。
  • #5: Azure Databricksは、主に ビッグデータ分析 リアルタイム分析 機械学習 などを行うことが可能です。 これらを開発や運用するために必要な環境も揃っています 複数人で同時に作業可能なノートブックがあります データを可視化し、それをダッシュボード化できます 定期的にデータを取り込み処理し、保存するようなflowを組んだり、定期実行する仕組みがあります Azureの各種データソースや一般的なDBなどに接続することができます やりたいことを実現する必要な環境が一式揃っているイメージです そして、この環境が数分で準備可能です! 少し深掘りながら説明していきます。
  • #6: Azure Databricksの概要です
  • #7: Azure Databricksとは インフラ構築不要ですぐに使える、apache sparkベースの分析プラットフォームです 先ほど説明した「 - ビッグデータ分析 リアルタイム分析 機械学習 」をapacheSparkベースで開発していきます。 AzureDatabricksのベースとなっている、Databricks社のDatabricksというサービスをAzureに統合、最適化したサービスです。 ではまずは、いま出てきた「apache spark」「Databricks」について先に説明していきます。
  • #8: まずは、apache Sparkについてです
  • #9: Apache Sparkとは ビッグデータの並列分散処理フレームワークです ビッグデータの並列分散処理といえばHadoopも聞きますが、Hadoopと何が違うのでしょうか Sparkの特徴として - インメモリで処理を行うので高速であること - 便利なコンポーネントが付属しているのであらゆるユースケースに対応できること があります まず、インメモリで動作することですが HadoopもSparkも処理の途中でデータを頻繁に保存しますが、保存先が違います。 HadoopはHDFSと呼ばれるストレージに対して処理の中で読み書きを繰り返しますが、そこが速度に対するボトルネックとなりやすいです。 対して、Sparkはメモリ上で処理を行いますので、高速に動作するという特徴があります。 次に、便利なコンポーネントがあること ですが SparkCoreという共通基盤の上に4つのコンポーネントが乗っており、様々なユースケースに対応しています 図の左から説明します
  • #10: 1つ目がSparkSql&データフレームと呼ばれるものです  Sparkで扱うDataを管理してくれます SQLかデータフレームというものを介して、Sparkの持っているデータにアクセスする機能を持っています メモ [Spark SQL & DataFrames | Apache Spark](https://spark.apache.org/sql/)
  • #11: 2つ目は、Spark Streamingです。  リアルタイムなデータ処理・分析のためのコンポーネントです  KafkaやHDFS、Apache Flumeと統合されています
  • #12: 3つ目は、MLlibです マシンラーニングライブラリです。 分類、回帰、クラスタリングなどのアルゴリズム用のユーティリティ と 機械学習のワークフロー用のユーティリティが 含まれています
  • #13: 4つ目がgrafxです グラフ構造のデータを扱うためのコンポーネントです
  • #14: これらを使うことで、分散処理、リアルタイムデータ分析、機械学習、グラフ演算など様々なユースケースに対応できます また、これらを高度に分散処理してくれる素敵なフレームワークとなっています
  • #15: 最後に対応言語ですが Python R Java Scala SQL です これらで処理を記述していきます
  • #16: では、databricksについてです
  • #17: ## Databricks Databricksとは、 今説明した、Apache Sparkの製作者によって作られたDatabricksという会社が開発運営しているサービスです。 Databricksは、Apache Sparkのクラスタを自動で管理し、Sparkで使うためのノートブックなどを用意しており、 WEBベースでSparkを使うことをできるようにしたサービスです。 Sparkを運用していく上での不安は何でしょうか? インフラ セキュリティ コスト は気になるところではないでしょうか 自前でSparkのクラスタを組み、日々運用するのは難しそう、人員がいない Dataやノートブックのセキュリティが心配 インフラ費用・保守費用が心配 それらをまるっと引き受けてくれるのがDatabricksです。 DatabricksはSparkのPaaSです インフラ周りを抽象化し、分析者開発者にそれらを気にせず作業に集中できる環境を提供してくれています 加えて、NootbookでWEB上での分析開発・そして共同作業を実現しています。 我々はインフラを気にすることなくSparkを使うことが出来ます。 Sparkのクラスタの構築も運用管理も必要がなくなります。 データエンジニアリングに集中できる素敵なサービスです。
  • #18: さて、apache SparkとDatabricksについて概要を掴んでいただけたかと思います では、Azure Databricksとは無印のDatabricksと何が違うのでしょうか? Databricksだけでも非常に優秀なのですが、Azureに統合されていることで便利な点が大きく2つあります 1つ目が  Azureの多彩なデータソースにアクセス可能なことです
  • #19: (Azureの多彩なデータソースにアクセス可能なことです)  - Azure BLOBストレージ  - Azure SQL Data Warehouse  - Azure Data Lake store  - Azure CosmosDB  - Power BI などと統合されています 2つ目がAzure Active Directory と統合されていることでエンタープライズレベルのセキュリティを提供されていることです。  Azure Databricksのノートブック、クラスター、ジョブ、およびデータに対してきめ細かいユーザー権限を設定することが可能です
  • #22: まずは全体像を御覧いただきたいと思います azure databricksでの最上位の論理単位はワークスペースです。 この単位でDatabricksを管理していきます ワークスペースの中には クラスタ ジョブ Data ノートブック ユーザー が存在します それぞれどのような役割なのか説明していきます
  • #23: azure databricksでの最上位の論理単位はワークスペースです。 この単位でDatabricksを管理していきます ワークスペースの中には クラスタ ジョブ ノートブック ユーザー Data が存在します
  • #24: クラスタは、JOBの実行を実際に行うサーバ群を設定していきます。 設定と言っても、スペックと台数を選ぶ程度の簡単設定となっています。
  • #25: ジョブは、主にタスクとスケジュールからなります タスクは実際に実行する処理を指定します Databricks上で作成したノートブック、またはJavaやScaraで作ったJARを設定します スケジュールは設定タスクをいつ実行するかや定期実行の設定などをすることが出来あmす
  • #26: ノートブックは、 ノートブックは、PythonのジュピターノートブックのようなWEB上の簡易エディタでさくせいします。 PythonなどでSparkの処理を記述していきます
  • #27: ユーザーです。 AADと統合もされていますが、個別にAzureDatabricks専用のユーザーを作ることも可能です このユーザー単位でDataやノートブックを作成、共有、協働作業を行うことが可能です
  • #28: DataはDatabricks上で取り扱うDataを管理します アップロード・DBFS・他のデータソースを使うことが出来ます アップロードはCSVなどのファイルをアップロードすることが出来あmす DBFSとは、Databricksファイルシステムです、Databricks上の共有ディスクです 他のデータソースは、Azure BLOB ストレージや データレイクstore、また、エラスティックサーチやRedis、KafkaなどDataブリック外のデータソースへアクセスすることが出来あmす JDBCにも対応しているので、様々なデータソースに接続可能です
  • #29: 黄色い枠でかこんな部分の Workspaceの作成 Clusterの作成 ノーチブックの作成 を見ていきましょう ここまででインタラクティブにSparkを使う環境ができあがります Azureのアカウントは作成済みという前提で進めていきます。
  • #30: まずはWorkspaceを作成していきます
  • #31: 検索やすべてのサービスのフィルタ等に「databricks」と入れてDatabricsの画面に入って下さい 追加buttonからWorkspaceの追加が可能です ここで、 Workspace名を任意の名前 サブスクリプション リソースグループ リージョンを適切に Pricing Tire はStandardかプレミアムを選択可能です ADのロールベースのアクセス制御などが必要な場合はプレミアムを選択して下さい 入力し 作成を押すとWorkspaceの作成が開始されます Workspaceは複数作れますので プロダクトの違いや、開発環境本番環境で分けたいとき また、サブスクリプションを分けたいときなど用途に応じて作成して下さい。
  • #32: Workspaceの作成が完了すると Lunch Workspacebuttonが表示されます ここから、DatabricsのWorkspaceにログインします
  • #33: 通常は、Azureのユーザーで自動でログインされます
  • #34: これがDatabricsのWorkspaceです
  • #35: つぎにClusterを立ち上げて見ます
  • #36: 左メニューにClustersとありますので選択してください
  • #37: Clusters画面の Create Clusterボタンを押します New Cluster画面に入りますので設定をしていきます Cluster Nameは管理しやすい名前を Cluster モードは2種類あります 一つのClusterを共有して複数で使いたい場合high Concurrency(ハイ コンカレンシー)を シングルユーザーなど並列実行数を求めない場合はStandardを選択してください Databrics ランタイムバージョンを選択してください GPUが必要な場合ここでGPU対応のランタイムを選択する必要があります。 ※ ドライバーがmaster的なワーカーがワーカー的な ドライバータイプとワーカータイプは追加遺体VMを選択してください 通常同じものが入ります ワーカータイプの Enable autoscalingにチェックを入れるとオートスケーリングが有効になります Min から Max に指定した範囲で自動でスケーリングを行います また、 Auto Terminationにチェックを入れ時間を指定しておくと 設定した時間操作が行われなかった際に自動でClusterを落としてくれるので無駄に課金されることが少なくなります 設定項目の入力が終わりましたら CreateClusterbuttonを押して下さい
  • #38: 最後にノートブックを作成します
  • #39: Workspaceのトップ画面に戻って、new notebookリンクを押して下さい ノートブック名と言語を入力するダイアログが出ますので入力しCreateボタンを押して下さい
  • #40: ジュピターノートブック風の画面が出たかと思います ここは複数人で同時編集可能ですし 表示したGraphをダッシュボードに追加するなど、便利な機能が満載です この後のDemoでお見せいたします
  • #41: 使い始めるまでの流れということで Workspace、Cluster、ノートブックの作成までを行いました これでもうプログラミングを始めることが可能です
  • #45: Azureは現在、世界に54リージョン展開されています この中でAzure Databricksが利用可なのは次のリージョンです
  • #46: 赤い枠で囲んであります。 日本からですと、東アジアか東南アジアがもっとも近いリージョンですね
  • #47: 現在日本などでは使えないのですが 更に使えるリージョンは増加中です 2018年4Q中に 灰色の枠で囲んだ地域でも利用可能になる予定です。 日本リージョンでももうすぐ利用です。 メモ https://docs.microsoft.com/ja-jp/azure/virtual-machines/windows/sizes-gpu [リージョン別の Azure 製品 | Microsoft Azure](https://azure.microsoft.com/ja-jp/global-infrastructure/services/?products=virtual-machines,databricks&regions=japan-west,japan-east)
  • #48: やはりいくら掛かるのかは気になるところだと思います。 価格について説明します
  • #49: Azure Databricksでは通常のVMとは少し料金体系が違います DBUというモノが入りますのでご注意下さい。 基本的なお支払金額は VM(仮想マシン)の料金+DBUの料金+ストレージ料金の合計金額となっています それぞれ、使った分だけ課金ですので、コストは最小限に押さえることが可能です
  • #50: DBUについて軽く説明しておきます
  • #51: DBUは Databricksの利用料金と考えて下さい ワークロード夜呼ばれる処理の実行方法の違いによって料金が違います。 また必要なDBU数はVMごとに設定されております。 VMごとのDBU数はこの後説明しますが先にワークロードについて説明します。 ワークロードは2種類あります Dataエンジニアリングとデータ分析です Dataエンジニアリングは ジョブスケジューラによって実行されるいわゆるバッチ処理として実行した場合の料金です データ分析はノートブック名からインタラクティブに処理を実行した際の料金です。
  • #52: では、必要なDBU数はVMごとに設定されているという点を見てみましょう DSv2シリーズの料金表を画面に出しています。 枠で囲った部分に注目して下さい インスタンsンスごとにDBU数とその料金が設定されています。 DS3 v2の場合は1時間あたり 0.75DBUですが DS5 v2の場合は1時間あたり 3DBUとなっております インスタンスの処理能力に応じて設定さています。 このDBUがコストに乗ってきますので覚えておいて下さい。
  • #53: ではいくつか例を見てみましょう 今回はインスタンスにかかる料金のみ例を出しています。
  • #56: いまご紹介した例のようなインスタンス料金にストレージにもお金がかかりますので 実際には想定されるデータ量などからストレージにかかる料金もお見積り下さい。
  • #58: 冒頭で説明しましたAzure Databricksでできることのイメージが少しでもみなさんと共有できて さぁ使ってみよう、やってみようという気持ちになっていただけたら幸いです!
  • #59: 【】 今日このウェビナーで私が伝えたかったことは もう踏み出せるよってことを教えてあげたい  できること   10分でSparkのクラスター立ち上げることができる   必要なときに必要なクラスタが立ち上がり、バッチ処理をこなせる   Notebookで共同作業できる  やり方   3Step  おかね
  • #60: 【おわり】
  • #112: ふぃn
  • #113: ふぃn
  • #114: 前半の最後の最後です 使い始めるまでの流れを見てみましょう
  • #115: 本ウェブセミナーでは、Databricksというのはどんなものか?Sparkとの関係は?  Databricksを使ったSpark環境の利用開始方法と、料金プランなど基本的なところから、DataBricksを利用したDeepLearningの実践方法までをお伝えします。
  • #116: これから具体的にお話していく前に、全体像を御覧いただきたいと思います azure databricksでの最上位の論理単位はxx その下に クラスタがあり クラスタの中にインスタンスあり、 datasetあり という、どこに何が含まれているのかを ツリーマップで 用語の説明と、論理的なつながり理解用
  • #119: ワークスペース - 論理的なデータブリックス  - Spark クラスターズ  - ノートブック  - job  - data - 複数ある理由  - 開発環境   - ガバナンス的に分けたい    - ユーザーを分ける  - アクティブディレクトリ単位  - 組織単位  - 製品別  - サブスクリプション   - 財布を分けれる
  • #120: []でくくられているのはオブジェクトではなく、パラメータ的なやつ {}でくくられているのは別のオブジェクトへ参照
  • #121: それぞれ説明 - ユーザー - クラスター  - インタラクティブ   - ノートブックから - Job  - コンフィグ  - タイマー - ノートブック - data  他のソース 各関連
  • #122: Databricks社の話 Sparkとの関係性 一言でdatabricks 「すぐに使える、簡単、ズッ友sparkSpark」 → このコンテキストで 「お固めに」 メリット - インフラの知識ほぼ不要 - 構築までほぼ9分 AzureDatabricksとは インフラ構築不要ですぐに使える、apache sparkベースの分析プラットフォームです Databricks社のDatabricksというサービスをAzureに統合、最適化したサービスです。 では、いま出てきた「apache spark」「Databricks」について軽く説明していきます。 ## Apache Sparkとは ビッグデータの並列分散処理フレームワークです ビッグデータの並列分散処理といえばhadoopがメジャーですが、Sparkは最近事例も増えてきているイメージです、Hadoopと何が違うのでしょうか Sparkの特徴として インメモリで有ること 便利なコンポーネントが付属していること があります まず、インメモリで動作することですが HadoopはHDFSと呼ばれるストレージに対して処理の中で読み書きを繰り返しますが、そこが速度に対するボトルネックとなりやすいです。 対して、Sparkはメモリ上で処理を行いますので、高速に動作するという特徴があります。 次に、便利なコンポーネントがあること ですが SparkCoreという共通基盤の上に4つのコンポーネントが乗っており、様々なユースケースに対応しています 1つ目がSparkSql + データフレーム と呼ばれるものです  Sparkで扱うDataを管理してくれます 2つ目は、ストリーミングです。  リアルタイムなデータ処理・分析のためのコンポーネントです  KafkaやHDFS、Apache Flumeと統合されています 3つ目は、Mlibです マシンラーニングライブラリです。 分類、回帰、クラスタリングなど、一般的なアルゴリズム用のutilityで構成されています 4つ目がgrafxです Dataを可視化するためのコンポーネントです これらを使うことで、分散処理、リアルタイムデータ分析、機械学習、可視化など様々なユースケースに対応できます ## Databricks Databricksとは、 今説明した、ApacheSparkの製作者によって作られたDatabricksという会社が運営しています。 Databricksは、Apache Sparkのクラスタを自動で管理し、Sparkで使うためのノートブックなどを用意しており、 WEBベースでSparkを使うことをできるようにしたサービスです。 我々はインフラを気にすることなくSparkを使うことが出来ます。 Sparkのクラスタ管理は必要がなくなります、もちろんオートスケールにも対応しています、 統合 そしてAzureDatabricksとは このDatabricksをAzureに最適化・統合したサービスです。 通常のDatabricksに加え、Azureの各種サービスと深く統合してあります。
  • #123: ではAzure Databricksについて詳しく見ていきましょう ここでは、Azure Databricksがどのような構成で動いているかを確認していきましょう
  • #124: 【メモ】 サイト https://azure.microsoft.com/ja-jp/services/databricks/ https://docs.microsoft.com/ja-jp/azure/azure-databricks/ リージョン https://azure.microsoft.com/ja-jp/global-infrastructure/regions/ https://azure.microsoft.com/ja-jp/global-infrastructure/services/
  • #125: 実際気になるお金の話を少ししておきます Azure DatabricksはDBUという単位で課金されます VM料金 + DBUとなります DBUはインスタンスごとに定義されています 例えば DSv2 シリーズ の場合 DS3は Vcpu 4 に対して DBUは0.75となっています DS4は VCPU 8 に対して 1.5です 仮想マシンの処理能力によってそれぞれ定義されています 仮想マシン料金とDBU料金ともう一つ Azure Blobストレージの料金もかかります DBではDBFSというストレージにDataをためますがこれはAzure Blobストレージに保存することで、Clusterを落としても消えない仕組みなっています こちらにも当然お金がかかりますので注意しましょう 仮想マシンDS3の場合を見てみましょう なそ、スタンダードレベルのデータ分析ワークロードとします DS3の仮想マシンを4台 1日 3時間のバッチ処理を毎日するとします すると まずVM料金は 時間あたり 35.4円のため 35.4円*3時間*30日*4台 = 12744円/月 DBUは、0.75のため 44.8円 * 0.75DBU * 3時間 * 30日 * 4台 = 12096円/月 合計すると 24840円 となります +でストレージ料金もかかりますのでご注意下さい https://azure.microsoft.com/ja-jp/pricing/details/databricks/
  • #126: ここまでで全体像は見えてきたかと思います ここから実際にワークスペースを作成し、Sparkでの分析ができるまでの流れを説明していきます Azureからワークスペースの作成 ワークスペースで Clusterの作成 ノートブックの作成 Jobの作成 Dataのアップロード JOBの実行
  • #127: ではAzure Databricksについて詳しく見ていきましょう ここでは、Azure Databricksがどのような構成で動いているかを確認していきましょう
  • #129: 【準備】 - 3minクッキング  別ワークスペース(得上よう)  - クラスター(時間がかかるので先に立てておく)
  • #130: まずは全体像を御覧いただきたいと思います azure databricksでの最上位の論理単位はワークスペースです。 この単位でDatabricksを管理していきます ワークスペースの中に クラスタ ジョブ Data ノートブック ユーザー が存在します クラスタは、JOBの実行を実際に行うサーバ群を設定していきます。 設定と言っても、スパックと台数を選ぶ程度の簡単設定となっています。 ジョブは、主にタスクとスケジュールからなります タスクは実際に実行する処理を指定します Databricks上で作成したノートブック、またはJavaやScaraで作ったJARを設定します DataはDatabricks上で取り扱うDataを管理します アップロード・DBFS・他のデータソースを使うことが出来ます アップロードはCSVなどのファイルをアップロードすることが出来あmす DBFSとは、Databricksファイルシステムです、Databricks上の共有ディスクです 他のデータソースは、Azure BLOB ストレージや データレイクstore、また、エラスティックサーチやRedis、KafkaなどDataブリック外のデータソースへアクセスすることが出来あmす JDBCにも対応しているので、様々なデータソースに接続可能です スケジュールは設定タスクをいつ実行するかや定期実行の設定などをすることが出来あmす これをClusterと紐つけます そして、ノートブックです、 ノートブックは、PythonのジュピターノートブックのようなWEB上の簡易エディタでさくせいします。 PythonでSparkの処理を記述していきます 最後にユーザーです。 AADと統合もされていますが、個別にAzureDatabricks専用のユーザーを作ることも可能です このユーザー単位でDataやノートブックを作成、共有、協働作業を行うことが可能です クラスタがあり クラスタの中にインスタンスあり、 datasetあり という、どこに何が含まれているのかを ツリーマップで 用語の説明と、論理的なつながり理解用
  • #131: https://info.microsoft.com/JA-SQLDB-WBNR-FY19-09Sep-14-WebinarSparktostartwithDatabricks-MCW0008293_01Registration-ForminBody.html?ls=Website&lsd=AzureWebsite
  • #132: 【準備】 - 3minクッキング  別ワークスペース(得上よう)  - クラスター(時間がかかるので先に立てておく)
  • #133: 【準備】 - 3minクッキング  別ワークスペース(得上よう)  - クラスター(時間がかかるので先に立てておく)
  • #139: 前半はこの流れで説明させていただきます
  • #140: ではまずは概要を説明いたします
  • #141: 続いて、Azure Databricksの構成要素について少し詳しく見ていきましょう
  • #142: では、Azure Databricksに対応しているリージョンについて見ていきましょう
  • #143: Azureは現在、世界に54リージョン展開されています この中でAzure Databricksが利用可なのは次のリージョンです
  • #144: Azure Databricksで機械学習を行いたい方は、Databricksが対応しているリージョン以外にバーチャルマシーンにGPUが乗ったものがあるかどうかも注意して下さい 世界地図の緑色で囲んだところがAzureDatabricksが使えかつGPUインスタンスが対応しているところです 機械学習用途でお考えの方は緑色の枠で囲ったリージョンである 〇〇、まるまる、丸々をご利用下さい。 メモ https://docs.microsoft.com/ja-jp/azure/virtual-machines/windows/sizes-gpu [リージョン別の Azure 製品 | Microsoft Azure](https://azure.microsoft.com/ja-jp/global-infrastructure/services/?products=virtual-machines,databricks&regions=japan-west,japan-east)
  • #145: 現在日本などでは使えないのですが 更に使えるリージョンは増加中です 2018年4Q中に 灰色の枠で囲んだ地域でも利用可能になる予定です。 日本リージョンでももうすぐ利用です。 メモ https://docs.microsoft.com/ja-jp/azure/virtual-machines/windows/sizes-gpu [リージョン別の Azure 製品 | Microsoft Azure](https://azure.microsoft.com/ja-jp/global-infrastructure/services/?products=virtual-machines,databricks&regions=japan-west,japan-east)
  • #146: ここにアジェンダ
  • #147: 前半の最後の最後です 使い始めるまでの流れを見てみましょう
  • #148: これで前半を終わります
  • #149: 全体像を御覧いただきたいと思います azure databricksでの最上位の論理単位はワークスペースです。 この単位でDatabricksを管理していきます ワークスペースの中に クラスタ ジョブ Data ノートブック ユーザー が存在します クラスタは、JOBの実行を実際に行うサーバ群を設定していきます。 設定と言っても、スパックと台数を選ぶ程度の簡単設定となっています。 ジョブは、主にタスクとスケジュールからなります タスクは実際に実行する処理を指定します Databricks上で作成したノートブック、またはJavaやScaraで作ったJARを設定します DataはDatabricks上で取り扱うDataを管理します アップロード・DBFS・他のデータソースを使うことが出来ます アップロードはCSVなどのファイルをアップロードすることが出来あmす DBFSとは、Databricksファイルシステムです、Databricks上の共有ディスクです 他のデータソースは、Azure BLOB ストレージや データレイクstore、また、エラスティックサーチやRedis、KafkaなどDataブリック外のデータソースへアクセスすることが出来あmす JDBCにも対応しているので、様々なデータソースに接続可能です スケジュールは設定タスクをいつ実行するかや定期実行の設定などをすることが出来あmす これをClusterと紐つけます そして、ノートブックです、 ノートブックは、PythonのジュピターノートブックのようなWEB上の簡易エディタでさくせいします。 PythonでSparkの処理を記述していきます 最後にユーザーです。 AADと統合もされていますが、個別にAzureDatabricks専用のユーザーを作ることも可能です このユーザー単位でDataやノートブックを作成、共有、協働作業を行うことが可能です クラスタがあり クラスタの中にインスタンスあり、 datasetあり という、どこに何が含まれているのかを ツリーマップで 用語の説明と、論理的なつながり理解用
  • #152: # --- メモ --- TDSP
  • #153: これらを構築するための基盤が数分で立ち上がります
  • #155: Cluster Mode Databricks Runtime Version Python Version Driver Type Worker Type Auto Termination Etc… Spark Config Environment Variables Tags Logging Init Scripts
  • #156: では、Sparkについてです
  • #157: では、databricksについてです
  • #158: では、Azure Databricksに対応しているリージョンについて見ていきましょう
  • #159: やはりいくら掛かるのかは気になるところだと思います。 価格について説明します
  • #160: ストレージは 注意)操作とデータ転送の料金は今回省きます
  • #161: 前半の最後の最後です 使い始めるまでの流れを見てみましょう
  • #162: これで前半を終わります
  • #163: 冒頭で説明しましたAzure Databricksでできることのイメージが少しでもみなさんと共有できて さぁ使ってみよう、やってみようという気持ちになっていただけたら幸いです!
  • #165: ここにアジェンダ
  • #166: 前半の最後の最後です 使い始めるまでの流れを見てみましょう
  • #167: 続いて実際に画面を操作しながらAzureDatabricksを使ったデモを行います。
  • #185: 前半はAzure Databricksの概要 後半は実際にDemoを行います 大枠を掴み、実際の操作を見ることで、使い始めるお手伝いができたらと思います。
  • #186: について