SlideShare a Scribd company logo
株式会社ジール
永田 亮磨
Delta Lake概要
自己紹介
永田 亮磨(Ryoma Nagata)
• BI専業ベンダー
(株式会社ジール)勤務
• Microsoft AzureのData Platform関
連の導入・開発やワークショップ
の講師をやってます
Twitter:@ryomaru0825
Linkedin:ryoma-nagata-0825
Qiita:qiita.com/ryoma-nagata
•Delta Lake概要
•Delta Lakeデモ
AGENDA
OSSプロジェクト『Delta Lake』
• Databricksの機能であったDelta
をOSS化(昨年のSpark + AI
Summit 2019 Keynoteで発表)
• ファイルシステム上で動作し
UpdateなどのDML実行が可能
• 実態はparquetファイルのため高
圧縮率
• 現在version 0.5.0
• https://delta.io/
DatalakeとDWHの一般的な課題
Datalake
• 柔軟に大容量データを格納可能
だが
• 異なるシステムのストリーミング
データの統合が困難
• データレイク内のデータ更新は不
可能
• データレイクへのクエリ速度は低
い
DWH
• 永続テーブルの高速なクエリ
だが
• アクセスがSQLに限定
• ストリーミングデータと保存データの
同時アクセスは困難
• スキーマ柔軟性の課題
• コンピューティングとストレージの密
結合
Delta Lake主要機能
Bigdataシステムで肥大した大規模なメタデータを分散処理可能
バッチデータ、ストリーミングを容易に統合
挿入データのスキーマ不正を自動検証
マージ、更新、および削除操作(DML)をサポートして複雑なユースケースを実現
データのバージョン管理により、ロールバック、完全な履歴監査証跡、機械学習の再現が可能
読み取り結果の不整合を防止
Big Data基盤に代表的なラムダアーキテクチャ
• スピードレイヤ(速報データ)とバッチレイヤ(蓄積データ)により、リアルタイム分析と時系列分析を両立
• バッチレイヤで生データを保持し(DataLake)、ビジネスロジック変更後の再計算が可能
Big Data基盤の懸念
• https://docs.microsoft.com/ja-jp/azure/architecture/data-guide/big-data/#lambda-architecture
データソース
ラムダアーキテクチャ
Big Data基盤の懸念
• https://docs.microsoft.com/ja-jp/azure/architecture/data-guide/big-data/#lambda-architecture
データソース
不正データ混入時の対応
table/
├ 2020-01-01/
├ 2020-01-02/
├ 2020-01-03
│ └ data-01.parquet
・
・
・
パーティションに分散したデータの修正は
現実的?
ラムダアーキテクチャ
Big Data基盤の懸念
• https://docs.microsoft.com/ja-jp/azure/architecture/data-guide/big-data/#lambda-architecture
データソース
速報データ同士の結合は不要?
データソース
Delta Lake 活用シーン①
-安全なデータの追加
• 追加(append)、
上書き(overwrite)操作をアト
ミックに実行
• テーブル挿入時には自動でス
キーマ検証を行い、不正データ
を例外処理することでデータを
保護
df.write
.format("delta")
.mode("append")
.save("/mnt/delta/events")
連携データ 生データ保管
バッチデータ
保管テーブル追加 or 上書き
(ACID)
不正列データ 生データ保管
バッチデータ
保管テーブルスキーマチェック
Delta Lake 活用シーン②
-DMLによるデータ更新
• Update、Delete、 Mergeをサ
ポートし、データの修正・削除
Upsertを実行
• タイムトラベルにより復元可能
• パーティションの利用により高
速化が可能
• Databricksでは先行利用できた
が、Delta Lake 0.3.0リリースで
実装(Announcing the Delta
Lake 0.3.0 Release)
ID eventType timestamp
1 clck 2020/4/1 23:00
2 clck 2020/4/1 23:01
3 conversion 2020/4/1 23:02 UPDATE events
SET eventType = 'click’
WHERE eventType = 'clck'
ID eventType data
1 click AAA
2 click BBB
3 conversion CCC
ID eventType data
3 conversion ccc'
4 conversion DDD
MERGE INTO events
USING updates
ON events.eventId = updates.eventId
WHEN MATCHED THEN
UPDATE SET events.data = updates.data
WHEN NOT MATCHED THEN
INSERT (date, eventId, data) VALUES (date, eventId, data)
ID eventType data
1 clck AAA
2 clck BBB
3 conversion ccc'
4 conversion DDD
Delta Lake 活用シーン③
-異なるソースデータの統合
• Structured-Streamingを利用し
たDataframe操作により、バッ
チ、ストリームを容易に結合可
能
• Structured-Streamingでは追加
されたファイルのみを正確に処
理
spark.readStream
.format("delta")
.load("/mnt/delta/events")
Or
events.writeStream
.format("delta")
.outputMode("append")
.option("checkpointLocation", “path")
.start("/delta/events")
ストリーム
データ
ストリーム
データ
バッチデータ
ストリームデータ
保管テーブル
ストリームデータ
保管テーブル
バッチデータ
保管テーブル
集計速報テーブル
ストリームデータ
統合テーブル
ストリーム
&バッチデータ統
合テーブル
• Git
• https://github.com/ryoma-
nagata/MyDatabricks/blob/master/20200423demo/DeltaLakeDemo_JPNC
ovid19.ipynb
• Slide Share
• https://www.slideshare.net/ssuser61ea57
DEMO
• https://pages.databricks.com/Solving-Business-Problems-Delta-
Lake-eBook-lp.html?_ga=2.206963795.130091878.1587356867-
872940378.1579665710
• https://docs.delta.io/0.4.0/delta-intro.html
• https://docs.microsoft.com/ja-jp/azure/databricks/delta/delta-
intro
• https://databricks.com/blog/2019/10/03/simple-reliable-upserts-
and-deletes-on-delta-lake-tables-using-python-apis.html
• https://docs.microsoft.com/ja-jp/azure/architecture/data-
guide/big-data/#lambda-architecture
• https://kb.databricks.com/delta/delta-merge-into.html
参考リンク
ご清聴ありがとうございました。

More Related Content

PDF
クラウドDWHにおける観点とAzure Synapse Analyticsの対応
PPTX
BigData Architecture for Azure
PDF
Databricks の始め方
PPTX
NOVA SQL User Group - Azure Synapse Analytics Overview - May 2020
PDF
データ基盤の従来~最新の考え方とSynapse Analyticsでの実現
PDF
一歩先行く Azure Computing シリーズ(全3回) 第2回 Azure VM どれを選ぶの? Azure VM 集中講座
PDF
Synapse lakedatabase
PDF
[DI12] あらゆるデータをビジネスに活用! Azure Data Lake を中心としたビックデータ処理基盤のアーキテクチャと実装
クラウドDWHにおける観点とAzure Synapse Analyticsの対応
BigData Architecture for Azure
Databricks の始め方
NOVA SQL User Group - Azure Synapse Analytics Overview - May 2020
データ基盤の従来~最新の考え方とSynapse Analyticsでの実現
一歩先行く Azure Computing シリーズ(全3回) 第2回 Azure VM どれを選ぶの? Azure VM 集中講座
Synapse lakedatabase
[DI12] あらゆるデータをビジネスに活用! Azure Data Lake を中心としたビックデータ処理基盤のアーキテクチャと実装

What's hot (20)

PPTX
PySparkによるジョブを、より速く、よりスケーラブルに実行するための最善の方法 ※講演は翻訳資料にて行います。 - Getting the Best...
PDF
Data platformdesign
PPTX
第15回JSSUG「Azure SQL Database 超入門」
PPTX
SQL Server 使いのための Azure Synapse Analytics - Spark 入門
PDF
Azure上の データベース 機能の選び方。KVSからDWHまで
PPTX
Data cleansing and prep with synapse data flows
PPTX
第29回 SQL Server 勉強会 (JSSUG) - Azure Synapse Analytics 概要
PDF
MS Interact 2019 - Azureサービスで実現するセキュリティ全体像
PDF
DBP-009_クラウドで実現するスケーラブルなデータ ウェアハウス Azure SQL Data Warehouse 解説
PDF
[DI03] DWH スペシャリストが語る! Azure SQL Data Warehouse チューニングの勘所
PDF
Snowflake Architecture and Performance
PPTX
アプリケーション開発者のためのAzure Databricks入門
PPTX
NTTデータが考えるデータ基盤の次の一手 ~AI活用のために知っておくべき新潮流とは?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
PDF
Azure Antenna はじめての Azure Data Lake
PDF
Sql server 構築 運用 tips
PDF
【de:code 2020】 Azure Synapse Analytics 技術編 ~ 最新の統合分析プラットフォームによる新しい価値の創出(前編)
PPTX
Kubernetes Controller for Pull Request Based Environment
PDF
Apache tinkerpopとグラフデータベースの世界
PDF
Microsoft Azure Storage 概要
PDF
Pipelines and Data Flows: Introduction to Data Integration in Azure Synapse A...
PySparkによるジョブを、より速く、よりスケーラブルに実行するための最善の方法 ※講演は翻訳資料にて行います。 - Getting the Best...
Data platformdesign
第15回JSSUG「Azure SQL Database 超入門」
SQL Server 使いのための Azure Synapse Analytics - Spark 入門
Azure上の データベース 機能の選び方。KVSからDWHまで
Data cleansing and prep with synapse data flows
第29回 SQL Server 勉強会 (JSSUG) - Azure Synapse Analytics 概要
MS Interact 2019 - Azureサービスで実現するセキュリティ全体像
DBP-009_クラウドで実現するスケーラブルなデータ ウェアハウス Azure SQL Data Warehouse 解説
[DI03] DWH スペシャリストが語る! Azure SQL Data Warehouse チューニングの勘所
Snowflake Architecture and Performance
アプリケーション開発者のためのAzure Databricks入門
NTTデータが考えるデータ基盤の次の一手 ~AI活用のために知っておくべき新潮流とは?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
Azure Antenna はじめての Azure Data Lake
Sql server 構築 運用 tips
【de:code 2020】 Azure Synapse Analytics 技術編 ~ 最新の統合分析プラットフォームによる新しい価値の創出(前編)
Kubernetes Controller for Pull Request Based Environment
Apache tinkerpopとグラフデータベースの世界
Microsoft Azure Storage 概要
Pipelines and Data Flows: Introduction to Data Integration in Azure Synapse A...
Ad

Similar to Delta lakesummary (20)

PDF
Delta Lake with Synapse dataflow
PDF
【de:code 2020】 Power Platform で広がるデータ インテグレーションの世界 (1/2)
PDF
【de:code 2020】 Power Platform で広がるデータ インテグレーションの世界 (2/2)
PDF
Spark + AI Summit 2020セッションのハイライト(Spark Meetup Tokyo #3 Online発表資料)
PPTX
分析指向データレイク実現の次の一手 ~Delta Lake、なにそれおいしいの?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
PDF
[de:code 2019 振り返り Night!] Data Platform
PDF
最強のデータベース基盤“Exadata”をパブリック・クラウドで活用!(Oracle Cloud Days Tokyo 2015)
PDF
YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)
PPTX
Powering Performance: メルセデス・ベンツにおけるDatabricksとQlikのリアルなユースケース
PPTX
ITインフラsummit 2017発表資料
PDF
楽天における大規模データベースの運用
PDF
0151209 Oracle DDD OracleとHadoop連携の勘所
PDF
20180319 ccon sync kintone
PDF
[Oracle Innovation Summit Tokyo 2018] 水環境の持続を支えるクラウド型ICTプラットフォーム「Water Busine...
PDF
【de:code 2020】 PostgreSQL もスケールさせよう! - Hyperscale (Citus) -
PDF
PDF版 世界中のゲーム分析をしてきたPlayFabが大進化!一緒に裏側の最新データ探索の仕組みを覗いてみよう Db tech showcase2020
PDF
BigData-JAWS#16 Lake House Architecture
PDF
[B22] PostgresPlus Advanced Server の Oracle Database 互換機能検証 by Noriyoshi Shinoda
PPTX
Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)
PDF
Oracle Database Appliance X5-2 アップデート内容のご紹介
Delta Lake with Synapse dataflow
【de:code 2020】 Power Platform で広がるデータ インテグレーションの世界 (1/2)
【de:code 2020】 Power Platform で広がるデータ インテグレーションの世界 (2/2)
Spark + AI Summit 2020セッションのハイライト(Spark Meetup Tokyo #3 Online発表資料)
分析指向データレイク実現の次の一手 ~Delta Lake、なにそれおいしいの?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
[de:code 2019 振り返り Night!] Data Platform
最強のデータベース基盤“Exadata”をパブリック・クラウドで活用!(Oracle Cloud Days Tokyo 2015)
YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)
Powering Performance: メルセデス・ベンツにおけるDatabricksとQlikのリアルなユースケース
ITインフラsummit 2017発表資料
楽天における大規模データベースの運用
0151209 Oracle DDD OracleとHadoop連携の勘所
20180319 ccon sync kintone
[Oracle Innovation Summit Tokyo 2018] 水環境の持続を支えるクラウド型ICTプラットフォーム「Water Busine...
【de:code 2020】 PostgreSQL もスケールさせよう! - Hyperscale (Citus) -
PDF版 世界中のゲーム分析をしてきたPlayFabが大進化!一緒に裏側の最新データ探索の仕組みを覗いてみよう Db tech showcase2020
BigData-JAWS#16 Lake House Architecture
[B22] PostgresPlus Advanced Server の Oracle Database 互換機能検証 by Noriyoshi Shinoda
Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)
Oracle Database Appliance X5-2 アップデート内容のご紹介
Ad

More from Ryoma Nagata (7)

PDF
Azure Purview Linage for Dataflow/Spark
PDF
Power Query Online
PDF
Paas_Security_Part1
PDF
Azure DevOps CICD Azure SQL / Data Factory
PDF
Ignite update databricks_stream_analytics
PPTX
道徳経営実践講座
PDF
20190517 Spark+AI Summit2019最新レポート
Azure Purview Linage for Dataflow/Spark
Power Query Online
Paas_Security_Part1
Azure DevOps CICD Azure SQL / Data Factory
Ignite update databricks_stream_analytics
道徳経営実践講座
20190517 Spark+AI Summit2019最新レポート

Delta lakesummary