Azure Databricksで始めるSpark 構築から活用までの第一歩

Download as PPTX, PDF

1 like555 views

Ryuichi Tokugami

Technology

Azure Databricksの概要
Azure Databricksの構成と使い始めるまでの流れ
Azure Databricksのリージョン
Azure Databricksの価格
［DEMO］Azure DatabricksでのDeep Learning
Azure Databricksでできること
Agenda

ビッグデータ
分析
リアルタイム
分析
機械学習
リアルタイムな
共同作業
データの可視化
ワークフローの
構築
様々な
データソース
数分で構築
これらを開発・運用するために
この環境が
Azure Databricksでできること

Azureに最適化・統合されたDatabricks
Azure Databricksとは

Azure Databricksとは
Azureに最適化・統合されたDatabricks

インメモリでの
高速処理
便利なコンポーネント
が付属しているため
あらゆるユースケース
に対応できる
Spark
SQL
Spark Core
Spark
Streaming
MLlib GraphX
Apache Sparkとは
ビッグデータの並列分散処理フレームワーク

使える言語
Spark
SQL
Spark Core
Spark
Streaming
MLlib GraphX
Apache Sparkとは
ビッグデータの並列分散処理フレームワーク
SQL

WEBから利用可能
インフラの管理不要
スケールアップ・アウ
トが無停止で可能
Notebookにより
インタラクティブに
分析・開発可能
多彩なデータソース
Clusters
Spark
Jobs Notebooks Data
Databricksとは
Apache SparkのPaaS

Workspace
Azure
Clusters Jobs
Note
books
Users Data
Azure Databricksの構成

Azure Databricksの構成
Workspace
Azure
Clusters Jobs
Note
books
Users Data

Azure Databricksの使い始めまでの流れ
Workspace, Cluster, Notebookの作成
Workspace
Azure
Clusters Jobs
Note
books
Users Data

Azure Databricksの使い始めまでの流れ
Workspaceの作成
Workspace
Azure
Clusters Jobs
Note
books
Users Data

Azure Databricksの使い始めまでの流れ
Clusterの作成
Workspace
Azure
Clusters Jobs
Note
books
Users Data

Azure Databricksの使い始めまでの流れ
Notebookの作成
Workspace
Azure
Clusters Jobs
Note
books
Users Data

※2018/09 時点の情報
Azure Databricksの使えるリージョン

※2018/09 時点の情報
Azure Databricksの使えるリージョン
（2018年4Qリリース予定）

インスタンスストレージ
VMの
料金
DBUの
料金
BLOB
ストレージの
料金
起動した分だけ保存した分だけ
使った分だけ
＋＝お支払い
Azure Databricksの価格
VM料金+ DBU料金 + ストレージ料金

Azure Databricksの価格
VM料金+ DBU料金 + ストレージ料金
インスタンスストレージ
VMの
料金
DBUの
料金
BLOB
ストレージの
料金
起動した分だけ保存した分だけ
使った分だけ
＋＝お支払い

※2018/09 時点の情報
Azure Databricksの価格
DBU料金はワークロードで違う
DBU
※ 1 時間あたりの処理能力の単位
データエンジニアリング
ジョブスケジューラ等によって実行される場合
自動起動のバッチ処理など
データ分析
アドホックコマンドなどのインタラクティブな
機能がクラスターで実行される場合

※2018/09 時点の情報
Azure Databricksの価格
インスタンス料金例

インスタンス
VMの料金
DBUの料金
例）データサイエンティストが分析のためNotebookを利用
業務時間中(10:00〜18:00)のみ起動
月にD3インスタンスを4台×8時間×20営業日の場合
※Standardレベル、データ分析ワークロード
35.40円 × 4台 × 160時間 = 22,656円/月
33.60円 × 4台 × 160時間 = 21,504円/月
44,160円/月
※2018/09 時点の情報
Azure Databricksの価格
インスタンス料金例

インスタンス
VMの料金
DBUの料金
例）日時のETL処理をジョブスケジューラによって定期実行
月にD3インスタンスを4台×2時間×30日の場合
※Standardレベル、データエンジニアリングワークロード
35.40円 × 4台 × 60時間 = 8,496円/月
16.80円 × 4台 × 60時間 = 4,032円/月
12,528円/月
※2018/09 時点の情報
Azure Databricksの価格
インスタンス料金例

Azure Databricksの概要
Azure Databricksの構成
Azure Databricksのリージョン
Azure Databricksの価格
Azure Databricksの使い始めまでの流れ
Azure Databricksでできること
Agenda

Azure Databricksでできること
Azure Databricksのはじめ方
• 10分でSparkのクラスター立ち上げることができる
• 必要なときに必要なクラスタが立ち上がり、
バッチ処理をこなせる
• Notebookで共同作業ができる
1. Workspaceを作る
2. Clusterを立ち上げる
3. Notebookを書く
Key Takeaway
お持ち帰りいただくもの

Azure Databricksで始めるSpark 構築から活用までの第一歩

1. Azure Databricksで始めるSpark 構築から活用までの第一歩株式会社PLAN-B テック＆データラボ技術統括得上竜一システム開発部システム開発ユニットリーダー藤本永一

2. Azure Databricksの概要 Azure Databricksの構成と使い始めるまでの流れ Azure Databricksのリージョン Azure Databricksの価格［DEMO］Azure DatabricksでのDeep Learning Azure Databricksでできること Agenda

3. Azure Databricksの概要 Azure Databricksの構成と使い始めるまでの流れ Azure Databricksのリージョン Azure Databricksの価格［DEMO］Azure DatabricksでのDeep Learning Azure Databricksでできること Agenda

4. ビッグデータ分析リアルタイム分析機械学習リアルタイムな共同作業データの可視化ワークフローの構築様々なデータソース数分で構築これらを開発・運用するためにこの環境が Azure Databricksでできること

5. Azure Databricksの概要 Azure Databricksの構成と使い始めるまでの流れ Azure Databricksのリージョン Azure Databricksの価格［DEMO］Azure DatabricksでのDeep Learning Azure Databricksでできること Agenda

6. Azureに最適化・統合されたDatabricks Azure Databricksとは

7. Azure Databricksとは Azureに最適化・統合されたDatabricks

8. インメモリでの高速処理便利なコンポーネントが付属しているためあらゆるユースケースに対応できる Spark SQL Spark Core Spark Streaming MLlib GraphX Apache Sparkとはビッグデータの並列分散処理フレームワーク

9. インメモリでの高速処理便利なコンポーネントが付属しているためあらゆるユースケースに対応できる Spark SQL Spark Core Spark Streaming MLlib GraphX Apache Sparkとはビッグデータの並列分散処理フレームワーク

10. インメモリでの高速処理便利なコンポーネントが付属しているためあらゆるユースケースに対応できる Spark SQL Spark Core Spark Streaming MLlib GraphX Apache Sparkとはビッグデータの並列分散処理フレームワーク

11. インメモリでの高速処理便利なコンポーネントが付属しているためあらゆるユースケースに対応できる Spark SQL Spark Core Spark Streaming MLlib GraphX Apache Sparkとはビッグデータの並列分散処理フレームワーク

12. インメモリでの高速処理便利なコンポーネントが付属しているためあらゆるユースケースに対応できる Spark SQL Spark Core Spark Streaming MLlib GraphX Apache Sparkとはビッグデータの並列分散処理フレームワーク

13. インメモリでの高速処理便利なコンポーネントが付属しているためあらゆるユースケースに対応できる Spark SQL Spark Core Spark Streaming MLlib GraphX Apache Sparkとはビッグデータの並列分散処理フレームワーク

14. 使える言語 Spark SQL Spark Core Spark Streaming MLlib GraphX Apache Sparkとはビッグデータの並列分散処理フレームワーク SQL

15. Azure Databricksとは Azureに最適化・統合されたDatabricks

16. WEBから利用可能インフラの管理不要スケールアップ・アウトが無停止で可能 Notebookによりインタラクティブに分析・開発可能多彩なデータソース Clusters Spark Jobs Notebooks Data Databricksとは Apache SparkのPaaS

17. Azure Databricksとは Azureに最適化・統合されたDatabricks

18. Azure Databricksとは Azureに最適化・統合されたDatabricks

19. Azure Databricksとは Azureに最適化・統合されたDatabricks

20. Azure Databricksの概要 Azure Databricksの構成と使い始めるまでの流れ Azure Databricksのリージョン Azure Databricksの価格［DEMO］Azure DatabricksでのDeep Learning Azure Databricksでできること Agenda

21. Workspace Azure Clusters Jobs Note books Users Data Azure Databricksの構成

22. Azure Databricksの構成 Workspace Azure Clusters Jobs Note books Users Data

23. Azure Databricksの構成 Workspace Azure Clusters Jobs Note books Users Data

24. Azure Databricksの構成 Workspace Azure Clusters Jobs Note books Users Data

25. Azure Databricksの構成 Workspace Azure Clusters Jobs Note books Users Data

26. Azure Databricksの構成 Workspace Azure Clusters Jobs Note books Users Data

27. Azure Databricksの構成 Workspace Azure Clusters Jobs Note books Users Data

28. Azure Databricksの使い始めまでの流れ Workspace, Cluster, Notebookの作成 Workspace Azure Clusters Jobs Note books Users Data

29. Azure Databricksの使い始めまでの流れ Workspaceの作成 Workspace Azure Clusters Jobs Note books Users Data

30. Azure Databricksの使い始めまでの流れ Workspaceの作成

31. Azure Databricksの使い始めまでの流れ Workspaceの作成

32. Azure Databricksの使い始めまでの流れ Workspaceの作成

33. Azure Databricksの使い始めまでの流れ Workspaceの作成

34. Azure Databricksの使い始めまでの流れ Clusterの作成 Workspace Azure Clusters Jobs Note books Users Data

35. Azure Databricksの使い始めまでの流れ Clusterの作成

36. Azure Databricksの使い始めまでの流れ Clusterの作成

37. Azure Databricksの使い始めまでの流れ Notebookの作成 Workspace Azure Clusters Jobs Note books Users Data

38. Azure Databricksの使い始めまでの流れ Notebookの作成

39. Azure Databricksの使い始めまでの流れ Notebookの作成

40. Azure Databricksの使い始めまでの流れ Workspace, Cluster, Notebookの作成 Workspace Azure Clusters Jobs Note books Users Data

41. Azure Databricksの概要 Azure Databricksの構成と使い始めるまでの流れ Azure Databricksのリージョン Azure Databricksの価格［DEMO］Azure DatabricksでのDeep Learning Azure Databricksでできること Agenda

43. Azure Databricksの概要 Azure Databricksの構成と使い始めるまでの流れ Azure Databricksのリージョン Azure Databricksの価格［DEMO］Azure DatabricksでのDeep Learning Azure Databricksでできること Agenda

44. ※2018/09 時点の情報 Azureのリージョン

45. ※2018/09 時点の情報 Azure Databricksの使えるリージョン

46. ※2018/09 時点の情報 Azure Databricksの使えるリージョン（2018年4Qリリース予定）

47. Azure Databricksの概要 Azure Databricksの構成と使い始めるまでの流れ Azure Databricksのリージョン Azure Databricksの価格［DEMO］Azure DatabricksでのDeep Learning Azure Databricksでできること Agenda

48. インスタンスストレージ VMの料金 DBUの料金 BLOB ストレージの料金起動した分だけ保存した分だけ使った分だけ＋＝お支払い Azure Databricksの価格 VM料金+ DBU料金 + ストレージ料金

49. Azure Databricksの価格 VM料金+ DBU料金 + ストレージ料金インスタンスストレージ VMの料金 DBUの料金 BLOB ストレージの料金起動した分だけ保存した分だけ使った分だけ＋＝お支払い

50. ※2018/09 時点の情報 Azure Databricksの価格 DBU料金はワークロードで違う DBU ※ 1 時間あたりの処理能力の単位データエンジニアリングジョブスケジューラ等によって実行される場合自動起動のバッチ処理などデータ分析アドホックコマンドなどのインタラクティブな機能がクラスターで実行される場合

51. ※2018/09 時点の情報 Azure Databricksの価格インスタンス料金例

52. Azure Databricksの価格 VM料金+ DBU料金 + ストレージ料金インスタンスストレージ VMの料金 DBUの料金 BLOB ストレージの料金起動した分だけ保存した分だけ使った分だけ＋＝お支払い

53. インスタンス VMの料金 DBUの料金例）データサイエンティストが分析のためNotebookを利用業務時間中(10:00〜18:00)のみ起動月にD3インスタンスを4台×8時間×20営業日の場合 ※Standardレベル、データ分析ワークロード 35.40円 × 4台 × 160時間 = 22,656円/月 33.60円 × 4台 × 160時間 = 21,504円/月 44,160円/月 ※2018/09 時点の情報 Azure Databricksの価格インスタンス料金例

54. インスタンス VMの料金 DBUの料金例）日時のETL処理をジョブスケジューラによって定期実行月にD3インスタンスを4台×2時間×30日の場合 ※Standardレベル、データエンジニアリングワークロード 35.40円 × 4台 × 60時間 = 8,496円/月 16.80円 × 4台 × 60時間 = 4,032円/月 12,528円/月 ※2018/09 時点の情報 Azure Databricksの価格インスタンス料金例

55. Azure Databricksの価格 VM料金+ DBU料金 + ストレージ料金インスタンスストレージ VMの料金 DBUの料金 BLOB ストレージの料金起動した分だけ保存した分だけ使った分だけ＋＝お支払い

56. Azure Databricksの概要 Azure Databricksの構成 Azure Databricksのリージョン Azure Databricksの価格 Azure Databricksの使い始めまでの流れ Azure Databricksでできること Agenda

57. ビッグデータ分析リアルタイム分析機械学習リアルタイムな共同作業データの可視化ワークフローの構築様々なデータソース数分で構築これらを開発・運用するためにこの環境が Azure Databricksでできること

58. Azure Databricksでできること Azure Databricksのはじめ方 • 10分でSparkのクラスター立ち上げることができる • 必要なときに必要なクラスタが立ち上がり、バッチ処理をこなせる • Notebookで共同作業ができる 1. Workspaceを作る 2. Clusterを立ち上げる 3. Notebookを書く Key Takeaway お持ち帰りいただくもの

59. Azure Databricksで始めるSpark 構築から活用までの第一歩株式会社PLAN-B テック＆データラボ技術統括得上竜一システム開発部システム開発ユニットリーダー藤本永一

60. Azure Databricksで始めるSpark 構築から活用までの第一歩株式会社PLAN-B テック＆データラボ技術統括得上竜一システム開発部システム開発ユニットリーダー藤本永一

Editor's Notes

#2: Azure Databricksで始めるSpark構築から活用までの第一歩
#3: この流れで説明させていただきます
#4: まずは、AzureDatabricksで何ができるのかをご説明します。
#5: Azure Databricksは、主にビッグデータ分析リアルタイム分析機械学習などを行うことが可能です。これらを開発や運用するために必要な環境も揃っています複数人で同時に作業可能なノートブックがありますデータを可視化し、それをダッシュボード化できます定期的にデータを取り込み処理し、保存するようなflowを組んだり、定期実行する仕組みがあります Azureの各種データソースや一般的なDBなどに接続することができますやりたいことを実現する必要な環境が一式揃っているイメージですそして、この環境が数分で準備可能です！少し深掘りながら説明していきます。
#6: Azure Databricksの概要です
#7: Azure Databricksとはインフラ構築不要ですぐに使える、apache sparkベースの分析プラットフォームです先ほど説明した「 - ビッグデータ分析リアルタイム分析機械学習」をapacheSparkベースで開発していきます。 AzureDatabricksのベースとなっている、Databricks社のDatabricksというサービスをAzureに統合、最適化したサービスです。ではまずは、いま出てきた「apache spark」「Databricks」について先に説明していきます。
#8: まずは、apache Sparkについてです
#9: Apache Sparkとはビッグデータの並列分散処理フレームワークですビッグデータの並列分散処理といえばHadoopも聞きますが、Hadoopと何が違うのでしょうか Sparkの特徴として - インメモリで処理を行うので高速であること - 便利なコンポーネントが付属しているのであらゆるユースケースに対応できることがありますまず、インメモリで動作することですが HadoopもSparkも処理の途中でデータを頻繁に保存しますが、保存先が違います。 HadoopはHDFSと呼ばれるストレージに対して処理の中で読み書きを繰り返しますが、そこが速度に対するボトルネックとなりやすいです。対して、Sparkはメモリ上で処理を行いますので、高速に動作するという特徴があります。次に、便利なコンポーネントがあることですが SparkCoreという共通基盤の上に4つのコンポーネントが乗っており、様々なユースケースに対応しています図の左から説明します
#10: 1つ目がSparkSql&データフレームと呼ばれるものです　Sparkで扱うDataを管理してくれます SQLかデータフレームというものを介して、Sparkの持っているデータにアクセスする機能を持っていますメモ [Spark SQL & DataFrames | Apache Spark](https://spark.apache.org/sql/)
#11: 2つ目は、Spark Streamingです。　リアルタイムなデータ処理・分析のためのコンポーネントです　KafkaやHDFS、Apache Flumeと統合されています
#12: 3つ目は、MLlibですマシンラーニングライブラリです。分類、回帰、クラスタリングなどのアルゴリズム用のユーティリティと機械学習のワークフロー用のユーティリティが含まれています
#13: 4つ目がgrafxですグラフ構造のデータを扱うためのコンポーネントです
#14: これらを使うことで、分散処理、リアルタイムデータ分析、機械学習、グラフ演算など様々なユースケースに対応できますまた、これらを高度に分散処理してくれる素敵なフレームワークとなっています
#15: 最後に対応言語ですが Python R Java Scala SQL ですこれらで処理を記述していきます
#16: では、databricksについてです
#17: ## Databricks Databricksとは、今説明した、Apache Sparkの製作者によって作られたDatabricksという会社が開発運営しているサービスです。 Databricksは、Apache Sparkのクラスタを自動で管理し、Sparkで使うためのノートブックなどを用意しており、 WEBベースでSparkを使うことをできるようにしたサービスです。 Sparkを運用していく上での不安は何でしょうか？インフラセキュリティコストは気になるところではないでしょうか自前でSparkのクラスタを組み、日々運用するのは難しそう、人員がいない Dataやノートブックのセキュリティが心配インフラ費用・保守費用が心配それらをまるっと引き受けてくれるのがDatabricksです。 DatabricksはSparkのPaaSですインフラ周りを抽象化し、分析者開発者にそれらを気にせず作業に集中できる環境を提供してくれています加えて、NootbookでWEB上での分析開発・そして共同作業を実現しています。我々はインフラを気にすることなくSparkを使うことが出来ます。 Sparkのクラスタの構築も運用管理も必要がなくなります。データエンジニアリングに集中できる素敵なサービスです。
#18: さて、apache SparkとDatabricksについて概要を掴んでいただけたかと思いますでは、Azure Databricksとは無印のDatabricksと何が違うのでしょうか？ Databricksだけでも非常に優秀なのですが、Azureに統合されていることで便利な点が大きく2つあります 1つ目が　Azureの多彩なデータソースにアクセス可能なことです
#19: （Azureの多彩なデータソースにアクセス可能なことです）　- Azure BLOBストレージ　- Azure SQL Data Warehouse 　- Azure Data Lake store 　- Azure CosmosDB 　- Power BI などと統合されています 2つ目がAzure Active Directory と統合されていることでエンタープライズレベルのセキュリティを提供されていることです。　Azure Databricksのノートブック、クラスター、ジョブ、およびデータに対してきめ細かいユーザー権限を設定することが可能です
#22: まずは全体像を御覧いただきたいと思います azure databricksでの最上位の論理単位はワークスペースです。この単位でDatabricksを管理していきますワークスペースの中にはクラスタジョブ Data ノートブックユーザーが存在しますそれぞれどのような役割なのか説明していきます
#23: azure databricksでの最上位の論理単位はワークスペースです。この単位でDatabricksを管理していきますワークスペースの中にはクラスタジョブノートブックユーザー Data が存在します
#24: クラスタは、JOBの実行を実際に行うサーバ群を設定していきます。設定と言っても、スペックと台数を選ぶ程度の簡単設定となっています。
#25: ジョブは、主にタスクとスケジュールからなりますタスクは実際に実行する処理を指定します Databricks上で作成したノートブック、またはJavaやScaraで作ったJARを設定しますスケジュールは設定タスクをいつ実行するかや定期実行の設定などをすることが出来あmす
#26: ノートブックは、ノートブックは、PythonのジュピターノートブックのようなWEB上の簡易エディタでさくせいします。 PythonなどでSparkの処理を記述していきます
#27: ユーザーです。 AADと統合もされていますが、個別にAzureDatabricks専用のユーザーを作ることも可能ですこのユーザー単位でDataやノートブックを作成、共有、協働作業を行うことが可能です
#28: DataはDatabricks上で取り扱うDataを管理しますアップロード・DBFS・他のデータソースを使うことが出来ますアップロードはCSVなどのファイルをアップロードすることが出来あmす DBFSとは、Databricksファイルシステムです、Databricks上の共有ディスクです他のデータソースは、Azure BLOB ストレージやデータレイクstore、また、エラスティックサーチやRedis、KafkaなどDataブリック外のデータソースへアクセスすることが出来あmす JDBCにも対応しているので、様々なデータソースに接続可能です
#29: 黄色い枠でかこんな部分の Workspaceの作成 Clusterの作成ノーチブックの作成を見ていきましょうここまででインタラクティブにSparkを使う環境ができあがります Azureのアカウントは作成済みという前提で進めていきます。
#30: まずはWorkspaceを作成していきます
#31: 検索やすべてのサービスのフィルタ等に「databricks」と入れてDatabricsの画面に入って下さい追加buttonからWorkspaceの追加が可能ですここで、 Workspace名を任意の名前サブスクリプションリソースグループリージョンを適切に Pricing Tire はStandardかプレミアムを選択可能です ADのロールベースのアクセス制御などが必要な場合はプレミアムを選択して下さい入力し作成を押すとWorkspaceの作成が開始されます Workspaceは複数作れますのでプロダクトの違いや、開発環境本番環境で分けたいときまた、サブスクリプションを分けたいときなど用途に応じて作成して下さい。
#32: Workspaceの作成が完了すると Lunch Workspacebuttonが表示されますここから、DatabricsのWorkspaceにログインします
#33: 通常は、Azureのユーザーで自動でログインされます
#34: これがDatabricsのWorkspaceです
#35: つぎにClusterを立ち上げて見ます
#36: 左メニューにClustersとありますので選択してください
#37: Clusters画面の Create Clusterボタンを押します New Cluster画面に入りますので設定をしていきます Cluster Nameは管理しやすい名前を Cluster モードは2種類あります一つのClusterを共有して複数で使いたい場合high Concurrency(ハイコンカレンシー)をシングルユーザーなど並列実行数を求めない場合はStandardを選択してください Databrics ランタイムバージョンを選択してください GPUが必要な場合ここでGPU対応のランタイムを選択する必要があります。 ※ ドライバーがmaster的なワーカーがワーカー的なドライバータイプとワーカータイプは追加遺体VMを選択してください通常同じものが入りますワーカータイプの Enable autoscalingにチェックを入れるとオートスケーリングが有効になります Min から Max に指定した範囲で自動でスケーリングを行いますまた、 Auto Terminationにチェックを入れ時間を指定しておくと設定した時間操作が行われなかった際に自動でClusterを落としてくれるので無駄に課金されることが少なくなります設定項目の入力が終わりましたら CreateClusterbuttonを押して下さい
#38: 最後にノートブックを作成します
#39: Workspaceのトップ画面に戻って、new notebookリンクを押して下さいノートブック名と言語を入力するダイアログが出ますので入力しCreateボタンを押して下さい
#40: ジュピターノートブック風の画面が出たかと思いますここは複数人で同時編集可能ですし表示したGraphをダッシュボードに追加するなど、便利な機能が満載ですこの後のDemoでお見せいたします
#41: 使い始めるまでの流れということで Workspace、Cluster、ノートブックの作成までを行いましたこれでもうプログラミングを始めることが可能です
#45: Azureは現在、世界に54リージョン展開されていますこの中でAzure Databricksが利用可なのは次のリージョンです
#46: 赤い枠で囲んであります。日本からですと、東アジアか東南アジアがもっとも近いリージョンですね
#47: 現在日本などでは使えないのですが更に使えるリージョンは増加中です 2018年4Q中に灰色の枠で囲んだ地域でも利用可能になる予定です。日本リージョンでももうすぐ利用です。メモ https://docs.microsoft.com/ja-jp/azure/virtual-machines/windows/sizes-gpu [リージョン別の Azure 製品 | Microsoft Azure](https://azure.microsoft.com/ja-jp/global-infrastructure/services/?products=virtual-machines,databricks&regions=japan-west,japan-east)
#48: やはりいくら掛かるのかは気になるところだと思います。価格について説明します
#49: Azure Databricksでは通常のVMとは少し料金体系が違います DBUというモノが入りますのでご注意下さい。基本的なお支払金額は VM（仮想マシン）の料金+DBUの料金＋ストレージ料金の合計金額となっていますそれぞれ、使った分だけ課金ですので、コストは最小限に押さえることが可能です
#50: DBUについて軽く説明しておきます
#51: DBUは　Databricksの利用料金と考えて下さいワークロード夜呼ばれる処理の実行方法の違いによって料金が違います。また必要なDBU数はVMごとに設定されております。 VMごとのDBU数はこの後説明しますが先にワークロードについて説明します。ワークロードは2種類あります Dataエンジニアリングとデータ分析です Dataエンジニアリングはジョブスケジューラによって実行されるいわゆるバッチ処理として実行した場合の料金ですデータ分析はノートブック名からインタラクティブに処理を実行した際の料金です。
#52: では、必要なDBU数はVMごとに設定されているという点を見てみましょう DSｖ2シリーズの料金表を画面に出しています。枠で囲った部分に注目して下さいインスタンsンスごとにDBU数とその料金が設定されています。 DS3　v2の場合は１時間あたり 0.75DBUですが DS5　v2の場合は1時間あたり 3DBUとなっておりますインスタンスの処理能力に応じて設定さています。このDBUがコストに乗ってきますので覚えておいて下さい。
#53: ではいくつか例を見てみましょう今回はインスタンスにかかる料金のみ例を出しています。
#56: いまご紹介した例のようなインスタンス料金にストレージにもお金がかかりますので実際には想定されるデータ量などからストレージにかかる料金もお見積り下さい。
#58: 冒頭で説明しましたAzure Databricksでできることのイメージが少しでもみなさんと共有できてさぁ使ってみよう、やってみようという気持ちになっていただけたら幸いです！
#59: 【】今日このウェビナーで私が伝えたかったことはもう踏み出せるよってことを教えてあげたい　できること　　10分でSparkのクラスター立ち上げることができる　　必要なときに必要なクラスタが立ち上がり、バッチ処理をこなせる　　Notebookで共同作業できる　やり方　　3Step 　おかね
#60: 【おわり】
#112: ふぃｎ
#113: ふぃｎ
#114: 前半の最後の最後です使い始めるまでの流れを見てみましょう
#115: 本ウェブセミナーでは、Databricksというのはどんなものか?Sparkとの関係は？　Databricksを使ったSpark環境の利用開始方法と、料金プランなど基本的なところから、DataBricksを利用したDeepLearningの実践方法までをお伝えします。
#116: これから具体的にお話していく前に、全体像を御覧いただきたいと思います azure databricksでの最上位の論理単位はxx その下にクラスタがありクラスタの中にインスタンスあり、 datasetありという、どこに何が含まれているのかをツリーマップで用語の説明と、論理的なつながり理解用
#119: ワークスペース - 論理的なデータブリックス　- Spark クラスターズ　- ノートブック　- job 　- data - 複数ある理由　- 開発環境　　- ガバナンス的に分けたい　　　- ユーザーを分ける　- アクティブディレクトリ単位　- 組織単位　- 製品別　- サブスクリプション　　- 財布を分けれる
#120: []でくくられているのはオブジェクトではなく、パラメータ的なやつ {}でくくられているのは別のオブジェクトへ参照
#121: それぞれ説明 - ユーザー - クラスター　- インタラクティブ　　- ノートブックから - Job 　- コンフィグ　- タイマー - ノートブック - data 　他のソース各関連
#122: Databricks社の話 Sparkとの関係性一言でdatabricks 「すぐに使える、簡単、ズッ友sparkSpark」 → このコンテキストで「お固めに」メリット - インフラの知識ほぼ不要 - 構築までほぼ9分 AzureDatabricksとはインフラ構築不要ですぐに使える、apache sparkベースの分析プラットフォームです Databricks社のDatabricksというサービスをAzureに統合、最適化したサービスです。では、いま出てきた「apache spark」「Databricks」について軽く説明していきます。 ## Apache Sparkとはビッグデータの並列分散処理フレームワークですビッグデータの並列分散処理といえばhadoopがメジャーですが、Sparkは最近事例も増えてきているイメージです、Hadoopと何が違うのでしょうか Sparkの特徴としてインメモリで有ること便利なコンポーネントが付属していることがありますまず、インメモリで動作することですが HadoopはHDFSと呼ばれるストレージに対して処理の中で読み書きを繰り返しますが、そこが速度に対するボトルネックとなりやすいです。対して、Sparkはメモリ上で処理を行いますので、高速に動作するという特徴があります。次に、便利なコンポーネントがあることですが SparkCoreという共通基盤の上に4つのコンポーネントが乗っており、様々なユースケースに対応しています 1つ目がSparkSql + データフレームと呼ばれるものです　Sparkで扱うDataを管理してくれます 2つ目は、ストリーミングです。　リアルタイムなデータ処理・分析のためのコンポーネントです　KafkaやHDFS、Apache Flumeと統合されています 3つ目は、Mlibですマシンラーニングライブラリです。分類、回帰、クラスタリングなど、一般的なアルゴリズム用のutilityで構成されています 4つ目がgrafxです Dataを可視化するためのコンポーネントですこれらを使うことで、分散処理、リアルタイムデータ分析、機械学習、可視化など様々なユースケースに対応できます ## Databricks Databricksとは、今説明した、ApacheSparkの製作者によって作られたDatabricksという会社が運営しています。 Databricksは、Apache Sparkのクラスタを自動で管理し、Sparkで使うためのノートブックなどを用意しており、 WEBベースでSparkを使うことをできるようにしたサービスです。我々はインフラを気にすることなくSparkを使うことが出来ます。 Sparkのクラスタ管理は必要がなくなります、もちろんオートスケールにも対応しています、統合そしてAzureDatabricksとはこのDatabricksをAzureに最適化・統合したサービスです。通常のDatabricksに加え、Azureの各種サービスと深く統合してあります。
#123: ではAzure Databricksについて詳しく見ていきましょうここでは、Azure Databricksがどのような構成で動いているかを確認していきましょう
#124: 【メモ】サイト https://azure.microsoft.com/ja-jp/services/databricks/ https://docs.microsoft.com/ja-jp/azure/azure-databricks/ リージョン https://azure.microsoft.com/ja-jp/global-infrastructure/regions/ https://azure.microsoft.com/ja-jp/global-infrastructure/services/
#125: 実際気になるお金の話を少ししておきます Azure DatabricksはDBUという単位で課金されます VM料金 + DBUとなります DBUはインスタンスごとに定義されています例えば DSv2 シリーズの場合 DS3は Vcpu 4 に対して DBUは0.75となっています DS4は VCPU 8 に対して 1.5です仮想マシンの処理能力によってそれぞれ定義されています仮想マシン料金とDBU料金ともう一つ Azure Blobストレージの料金もかかりますＤBではDBFSというストレージにDataをためますがこれはAzure Blobストレージに保存することで、Clusterを落としても消えない仕組みなっていますこちらにも当然お金がかかりますので注意しましょう仮想マシンDS3の場合を見てみましょうなそ、スタンダードレベルのデータ分析ワークロードとします DS3の仮想マシンを4台 1日 3時間のバッチ処理を毎日するとしますするとまずVM料金は時間あたり 35.4円のため 35.4円*3時間*30日*4台 = 12744円/月 DBUは、0.75のため 44.8円 * 0.75DBU * 3時間 * 30日 * 4台 = 12096円/月合計すると 24840円となります +でストレージ料金もかかりますのでご注意下さい https://azure.microsoft.com/ja-jp/pricing/details/databricks/
#126: ここまでで全体像は見えてきたかと思いますここから実際にワークスペースを作成し、Sparkでの分析ができるまでの流れを説明していきます Azureからワークスペースの作成ワークスペースで Clusterの作成ノートブックの作成 Jobの作成 Dataのアップロード JOBの実行
#127: ではAzure Databricksについて詳しく見ていきましょうここでは、Azure Databricksがどのような構成で動いているかを確認していきましょう
#129: 【準備】 - 3minクッキング　別ワークスペース（得上よう）　- クラスター（時間がかかるので先に立てておく）
#130: まずは全体像を御覧いただきたいと思います azure databricksでの最上位の論理単位はワークスペースです。この単位でDatabricksを管理していきますワークスペースの中にクラスタジョブ Data ノートブックユーザーが存在しますクラスタは、JOBの実行を実際に行うサーバ群を設定していきます。設定と言っても、スパックと台数を選ぶ程度の簡単設定となっています。ジョブは、主にタスクとスケジュールからなりますタスクは実際に実行する処理を指定します Databricks上で作成したノートブック、またはJavaやScaraで作ったJARを設定します DataはDatabricks上で取り扱うDataを管理しますアップロード・DBFS・他のデータソースを使うことが出来ますアップロードはCSVなどのファイルをアップロードすることが出来あmす DBFSとは、Databricksファイルシステムです、Databricks上の共有ディスクです他のデータソースは、Azure BLOB ストレージやデータレイクstore、また、エラスティックサーチやRedis、KafkaなどDataブリック外のデータソースへアクセスすることが出来あmす JDBCにも対応しているので、様々なデータソースに接続可能ですスケジュールは設定タスクをいつ実行するかや定期実行の設定などをすることが出来あmすこれをClusterと紐つけますそして、ノートブックです、ノートブックは、PythonのジュピターノートブックのようなWEB上の簡易エディタでさくせいします。 PythonでSparkの処理を記述していきます最後にユーザーです。 AADと統合もされていますが、個別にAzureDatabricks専用のユーザーを作ることも可能ですこのユーザー単位でDataやノートブックを作成、共有、協働作業を行うことが可能ですクラスタがありクラスタの中にインスタンスあり、 datasetありという、どこに何が含まれているのかをツリーマップで用語の説明と、論理的なつながり理解用
#131: https://info.microsoft.com/JA-SQLDB-WBNR-FY19-09Sep-14-WebinarSparktostartwithDatabricks-MCW0008293_01Registration-ForminBody.html?ls=Website&lsd=AzureWebsite
#132: 【準備】 - 3minクッキング　別ワークスペース（得上よう）　- クラスター（時間がかかるので先に立てておく）
#133: 【準備】 - 3minクッキング　別ワークスペース（得上よう）　- クラスター（時間がかかるので先に立てておく）
#139: 前半はこの流れで説明させていただきます
#140: ではまずは概要を説明いたします
#141: 続いて、Azure Databricksの構成要素について少し詳しく見ていきましょう
#142: では、Azure Databricksに対応しているリージョンについて見ていきましょう
#143: Azureは現在、世界に54リージョン展開されていますこの中でAzure Databricksが利用可なのは次のリージョンです
#144: Azure Databricksで機械学習を行いたい方は、Databricksが対応しているリージョン以外にバーチャルマシーンにGPUが乗ったものがあるかどうかも注意して下さい世界地図の緑色で囲んだところがAzureDatabricksが使えかつGPUインスタンスが対応しているところです機械学習用途でお考えの方は緑色の枠で囲ったリージョンである〇〇、まるまる、丸々をご利用下さい。メモ https://docs.microsoft.com/ja-jp/azure/virtual-machines/windows/sizes-gpu [リージョン別の Azure 製品 | Microsoft Azure](https://azure.microsoft.com/ja-jp/global-infrastructure/services/?products=virtual-machines,databricks&regions=japan-west,japan-east)
#145: 現在日本などでは使えないのですが更に使えるリージョンは増加中です 2018年4Q中に灰色の枠で囲んだ地域でも利用可能になる予定です。日本リージョンでももうすぐ利用です。メモ https://docs.microsoft.com/ja-jp/azure/virtual-machines/windows/sizes-gpu [リージョン別の Azure 製品 | Microsoft Azure](https://azure.microsoft.com/ja-jp/global-infrastructure/services/?products=virtual-machines,databricks&regions=japan-west,japan-east)
#146: ここにアジェンダ
#147: 前半の最後の最後です使い始めるまでの流れを見てみましょう
#148: これで前半を終わります
#149: 全体像を御覧いただきたいと思います azure databricksでの最上位の論理単位はワークスペースです。この単位でDatabricksを管理していきますワークスペースの中にクラスタジョブ Data ノートブックユーザーが存在しますクラスタは、JOBの実行を実際に行うサーバ群を設定していきます。設定と言っても、スパックと台数を選ぶ程度の簡単設定となっています。ジョブは、主にタスクとスケジュールからなりますタスクは実際に実行する処理を指定します Databricks上で作成したノートブック、またはJavaやScaraで作ったJARを設定します DataはDatabricks上で取り扱うDataを管理しますアップロード・DBFS・他のデータソースを使うことが出来ますアップロードはCSVなどのファイルをアップロードすることが出来あmす DBFSとは、Databricksファイルシステムです、Databricks上の共有ディスクです他のデータソースは、Azure BLOB ストレージやデータレイクstore、また、エラスティックサーチやRedis、KafkaなどDataブリック外のデータソースへアクセスすることが出来あmす JDBCにも対応しているので、様々なデータソースに接続可能ですスケジュールは設定タスクをいつ実行するかや定期実行の設定などをすることが出来あmすこれをClusterと紐つけますそして、ノートブックです、ノートブックは、PythonのジュピターノートブックのようなWEB上の簡易エディタでさくせいします。 PythonでSparkの処理を記述していきます最後にユーザーです。 AADと統合もされていますが、個別にAzureDatabricks専用のユーザーを作ることも可能ですこのユーザー単位でDataやノートブックを作成、共有、協働作業を行うことが可能ですクラスタがありクラスタの中にインスタンスあり、 datasetありという、どこに何が含まれているのかをツリーマップで用語の説明と、論理的なつながり理解用
#152: # --- メモ --- TDSP
#153: これらを構築するための基盤が数分で立ち上がります
#155: Cluster Mode Databricks Runtime Version Python Version Driver TypeWorker TypeAuto Termination Etc… Spark Config Environment Variables Tags Logging Init Scripts
#156: では、Sparkについてです
#157: では、databricksについてです
#158: では、Azure Databricksに対応しているリージョンについて見ていきましょう
#159: やはりいくら掛かるのかは気になるところだと思います。価格について説明します
#160: ストレージは注意）操作とデータ転送の料金は今回省きます
#161: 前半の最後の最後です使い始めるまでの流れを見てみましょう
#162: これで前半を終わります
#163: 冒頭で説明しましたAzure Databricksでできることのイメージが少しでもみなさんと共有できてさぁ使ってみよう、やってみようという気持ちになっていただけたら幸いです！
#165: ここにアジェンダ
#166: 前半の最後の最後です使い始めるまでの流れを見てみましょう
#167: 続いて実際に画面を操作しながらAzureDatabricksを使ったデモを行います。
#185: 前半はAzure Databricksの概要後半は実際にDemoを行います大枠を掴み、実際の操作を見ることで、使い始めるお手伝いができたらと思います。
#186: について

Azure Databricksで始めるSpark 構築から活用までの第一歩

More Related Content

What's hot (20)

Similar to Azure Databricksで始めるSpark 構築から活用までの第一歩 (7)

More from Ryuichi Tokugami (20)

Azure Databricksで始めるSpark 構築から活用までの第一歩

Editor's Notes