Submit Search
Delta lakesummary
Download as PPTX, PDF
0 likes
340 views
R
Ryoma Nagata
2020/4/23 Databricksもくもく会の資料です
Data & Analytics
Read more
1 of 15
Download now
Download to read offline
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
More Related Content
PDF
クラウドDWHにおける観点とAzure Synapse Analyticsの対応
Ryoma Nagata
PPTX
BigData Architecture for Azure
Ryoma Nagata
PDF
Databricks の始め方
Ryoma Nagata
PPTX
NOVA SQL User Group - Azure Synapse Analytics Overview - May 2020
Timothy McAliley
PDF
データ基盤の従来~最新の考え方とSynapse Analyticsでの実現
Ryoma Nagata
PDF
一歩先行く Azure Computing シリーズ(全3回) 第2回 Azure VM どれを選ぶの? Azure VM 集中講座
Minoru Naito
PDF
Synapse lakedatabase
Ryoma Nagata
PDF
[DI12] あらゆるデータをビジネスに活用! Azure Data Lake を中心としたビックデータ処理基盤のアーキテクチャと実装
de:code 2017
クラウドDWHにおける観点とAzure Synapse Analyticsの対応
Ryoma Nagata
BigData Architecture for Azure
Ryoma Nagata
Databricks の始め方
Ryoma Nagata
NOVA SQL User Group - Azure Synapse Analytics Overview - May 2020
Timothy McAliley
データ基盤の従来~最新の考え方とSynapse Analyticsでの実現
Ryoma Nagata
一歩先行く Azure Computing シリーズ(全3回) 第2回 Azure VM どれを選ぶの? Azure VM 集中講座
Minoru Naito
Synapse lakedatabase
Ryoma Nagata
[DI12] あらゆるデータをビジネスに活用! Azure Data Lake を中心としたビックデータ処理基盤のアーキテクチャと実装
de:code 2017
What's hot
(20)
PPTX
PySparkによるジョブを、より速く、よりスケーラブルに実行するための最善の方法 ※講演は翻訳資料にて行います。 - Getting the Best...
Holden Karau
PDF
Data platformdesign
Ryoma Nagata
PPTX
第15回JSSUG「Azure SQL Database 超入門」
裕之 木下
PPTX
SQL Server 使いのための Azure Synapse Analytics - Spark 入門
Daiyu Hatakeyama
PDF
Azure上の データベース 機能の選び方。KVSからDWHまで
Daisuke Masubuchi
PPTX
Data cleansing and prep with synapse data flows
Mark Kromer
PPTX
第29回 SQL Server 勉強会 (JSSUG) - Azure Synapse Analytics 概要
Daiyu Hatakeyama
PDF
MS Interact 2019 - Azureサービスで実現するセキュリティ全体像
Ai Hayakawa
PDF
DBP-009_クラウドで実現するスケーラブルなデータ ウェアハウス Azure SQL Data Warehouse 解説
decode2016
PDF
[DI03] DWH スペシャリストが語る! Azure SQL Data Warehouse チューニングの勘所
de:code 2017
PDF
Snowflake Architecture and Performance
Mineaki Motohashi
PPTX
アプリケーション開発者のためのAzure Databricks入門
Yoichi Kawasaki
PPTX
NTTデータが考えるデータ基盤の次の一手 ~AI活用のために知っておくべき新潮流とは?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
NTT DATA Technology & Innovation
PDF
Azure Antenna はじめての Azure Data Lake
Hideo Takagi
PDF
Sql server 構築 運用 tips
Masayuki Ozawa
PDF
【de:code 2020】 Azure Synapse Analytics 技術編 ~ 最新の統合分析プラットフォームによる新しい価値の創出(前編)
日本マイクロソフト株式会社
PPTX
Kubernetes Controller for Pull Request Based Environment
Vishal Banthia
PDF
Apache tinkerpopとグラフデータベースの世界
Yuki Morishita
PDF
Microsoft Azure Storage 概要
Takeshi Fukuhara
PDF
Pipelines and Data Flows: Introduction to Data Integration in Azure Synapse A...
Cathrine Wilhelmsen
PySparkによるジョブを、より速く、よりスケーラブルに実行するための最善の方法 ※講演は翻訳資料にて行います。 - Getting the Best...
Holden Karau
Data platformdesign
Ryoma Nagata
第15回JSSUG「Azure SQL Database 超入門」
裕之 木下
SQL Server 使いのための Azure Synapse Analytics - Spark 入門
Daiyu Hatakeyama
Azure上の データベース 機能の選び方。KVSからDWHまで
Daisuke Masubuchi
Data cleansing and prep with synapse data flows
Mark Kromer
第29回 SQL Server 勉強会 (JSSUG) - Azure Synapse Analytics 概要
Daiyu Hatakeyama
MS Interact 2019 - Azureサービスで実現するセキュリティ全体像
Ai Hayakawa
DBP-009_クラウドで実現するスケーラブルなデータ ウェアハウス Azure SQL Data Warehouse 解説
decode2016
[DI03] DWH スペシャリストが語る! Azure SQL Data Warehouse チューニングの勘所
de:code 2017
Snowflake Architecture and Performance
Mineaki Motohashi
アプリケーション開発者のためのAzure Databricks入門
Yoichi Kawasaki
NTTデータが考えるデータ基盤の次の一手 ~AI活用のために知っておくべき新潮流とは?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
NTT DATA Technology & Innovation
Azure Antenna はじめての Azure Data Lake
Hideo Takagi
Sql server 構築 運用 tips
Masayuki Ozawa
【de:code 2020】 Azure Synapse Analytics 技術編 ~ 最新の統合分析プラットフォームによる新しい価値の創出(前編)
日本マイクロソフト株式会社
Kubernetes Controller for Pull Request Based Environment
Vishal Banthia
Apache tinkerpopとグラフデータベースの世界
Yuki Morishita
Microsoft Azure Storage 概要
Takeshi Fukuhara
Pipelines and Data Flows: Introduction to Data Integration in Azure Synapse A...
Cathrine Wilhelmsen
Ad
Similar to Delta lakesummary
(20)
PDF
Delta Lake with Synapse dataflow
Ryoma Nagata
PDF
【de:code 2020】 Power Platform で広がるデータ インテグレーションの世界 (1/2)
日本マイクロソフト株式会社
PDF
【de:code 2020】 Power Platform で広がるデータ インテグレーションの世界 (2/2)
日本マイクロソフト株式会社
PDF
Spark + AI Summit 2020セッションのハイライト(Spark Meetup Tokyo #3 Online発表資料)
NTT DATA Technology & Innovation
PPTX
分析指向データレイク実現の次の一手 ~Delta Lake、なにそれおいしいの?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
NTT DATA Technology & Innovation
PDF
[de:code 2019 振り返り Night!] Data Platform
Naoki (Neo) SATO
PDF
最強のデータベース基盤“Exadata”をパブリック・クラウドで活用!(Oracle Cloud Days Tokyo 2015)
オラクルエンジニア通信
PDF
YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)
NTT DATA Technology & Innovation
PPTX
Powering Performance: メルセデス・ベンツにおけるDatabricksとQlikのリアルなユースケース
QlikPresalesJapan
PPTX
ITインフラsummit 2017発表資料
Masayuki Hyugaji
PDF
楽天における大規模データベースの運用
Rakuten Group, Inc.
PDF
0151209 Oracle DDD OracleとHadoop連携の勘所
オラクルエンジニア通信
PDF
20180319 ccon sync kintone
CData Software Japan
PDF
[Oracle Innovation Summit Tokyo 2018] 水環境の持続を支えるクラウド型ICTプラットフォーム「Water Busine...
オラクルエンジニア通信
PDF
【de:code 2020】 PostgreSQL もスケールさせよう! - Hyperscale (Citus) -
日本マイクロソフト株式会社
PDF
PDF版 世界中のゲーム分析をしてきたPlayFabが大進化!一緒に裏側の最新データ探索の仕組みを覗いてみよう Db tech showcase2020
Daisuke Masubuchi
PDF
BigData-JAWS#16 Lake House Architecture
Satoru Ishikawa
PDF
[B22] PostgresPlus Advanced Server の Oracle Database 互換機能検証 by Noriyoshi Shinoda
Insight Technology, Inc.
PPTX
Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)
Cloudera Japan
PDF
Oracle Database Appliance X5-2 アップデート内容のご紹介
オラクルエンジニア通信
Delta Lake with Synapse dataflow
Ryoma Nagata
【de:code 2020】 Power Platform で広がるデータ インテグレーションの世界 (1/2)
日本マイクロソフト株式会社
【de:code 2020】 Power Platform で広がるデータ インテグレーションの世界 (2/2)
日本マイクロソフト株式会社
Spark + AI Summit 2020セッションのハイライト(Spark Meetup Tokyo #3 Online発表資料)
NTT DATA Technology & Innovation
分析指向データレイク実現の次の一手 ~Delta Lake、なにそれおいしいの?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
NTT DATA Technology & Innovation
[de:code 2019 振り返り Night!] Data Platform
Naoki (Neo) SATO
最強のデータベース基盤“Exadata”をパブリック・クラウドで活用!(Oracle Cloud Days Tokyo 2015)
オラクルエンジニア通信
YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)
NTT DATA Technology & Innovation
Powering Performance: メルセデス・ベンツにおけるDatabricksとQlikのリアルなユースケース
QlikPresalesJapan
ITインフラsummit 2017発表資料
Masayuki Hyugaji
楽天における大規模データベースの運用
Rakuten Group, Inc.
0151209 Oracle DDD OracleとHadoop連携の勘所
オラクルエンジニア通信
20180319 ccon sync kintone
CData Software Japan
[Oracle Innovation Summit Tokyo 2018] 水環境の持続を支えるクラウド型ICTプラットフォーム「Water Busine...
オラクルエンジニア通信
【de:code 2020】 PostgreSQL もスケールさせよう! - Hyperscale (Citus) -
日本マイクロソフト株式会社
PDF版 世界中のゲーム分析をしてきたPlayFabが大進化!一緒に裏側の最新データ探索の仕組みを覗いてみよう Db tech showcase2020
Daisuke Masubuchi
BigData-JAWS#16 Lake House Architecture
Satoru Ishikawa
[B22] PostgresPlus Advanced Server の Oracle Database 互換機能検証 by Noriyoshi Shinoda
Insight Technology, Inc.
Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)
Cloudera Japan
Oracle Database Appliance X5-2 アップデート内容のご紹介
オラクルエンジニア通信
Ad
More from Ryoma Nagata
(7)
PDF
Azure Purview Linage for Dataflow/Spark
Ryoma Nagata
PDF
Power Query Online
Ryoma Nagata
PDF
Paas_Security_Part1
Ryoma Nagata
PDF
Azure DevOps CICD Azure SQL / Data Factory
Ryoma Nagata
PDF
Ignite update databricks_stream_analytics
Ryoma Nagata
PPTX
道徳経営実践講座
Ryoma Nagata
PDF
20190517 Spark+AI Summit2019最新レポート
Ryoma Nagata
Azure Purview Linage for Dataflow/Spark
Ryoma Nagata
Power Query Online
Ryoma Nagata
Paas_Security_Part1
Ryoma Nagata
Azure DevOps CICD Azure SQL / Data Factory
Ryoma Nagata
Ignite update databricks_stream_analytics
Ryoma Nagata
道徳経営実践講座
Ryoma Nagata
20190517 Spark+AI Summit2019最新レポート
Ryoma Nagata
Delta lakesummary
1.
株式会社ジール 永田 亮磨 Delta Lake概要
2.
自己紹介 永田 亮磨(Ryoma Nagata) •
BI専業ベンダー (株式会社ジール)勤務 • Microsoft AzureのData Platform関 連の導入・開発やワークショップ の講師をやってます Twitter:@ryomaru0825 Linkedin:ryoma-nagata-0825 Qiita:qiita.com/ryoma-nagata
3.
•Delta Lake概要 •Delta Lakeデモ AGENDA
4.
OSSプロジェクト『Delta Lake』 • Databricksの機能であったDelta をOSS化(昨年のSpark
+ AI Summit 2019 Keynoteで発表) • ファイルシステム上で動作し UpdateなどのDML実行が可能 • 実態はparquetファイルのため高 圧縮率 • 現在version 0.5.0 • https://delta.io/
5.
DatalakeとDWHの一般的な課題 Datalake • 柔軟に大容量データを格納可能 だが • 異なるシステムのストリーミング データの統合が困難 •
データレイク内のデータ更新は不 可能 • データレイクへのクエリ速度は低 い DWH • 永続テーブルの高速なクエリ だが • アクセスがSQLに限定 • ストリーミングデータと保存データの 同時アクセスは困難 • スキーマ柔軟性の課題 • コンピューティングとストレージの密 結合
6.
Delta Lake主要機能 Bigdataシステムで肥大した大規模なメタデータを分散処理可能 バッチデータ、ストリーミングを容易に統合 挿入データのスキーマ不正を自動検証 マージ、更新、および削除操作(DML)をサポートして複雑なユースケースを実現 データのバージョン管理により、ロールバック、完全な履歴監査証跡、機械学習の再現が可能 読み取り結果の不整合を防止
7.
Big Data基盤に代表的なラムダアーキテクチャ • スピードレイヤ(速報データ)とバッチレイヤ(蓄積データ)により、リアルタイム分析と時系列分析を両立 •
バッチレイヤで生データを保持し(DataLake)、ビジネスロジック変更後の再計算が可能 Big Data基盤の懸念 • https://docs.microsoft.com/ja-jp/azure/architecture/data-guide/big-data/#lambda-architecture データソース
8.
ラムダアーキテクチャ Big Data基盤の懸念 • https://docs.microsoft.com/ja-jp/azure/architecture/data-guide/big-data/#lambda-architecture データソース 不正データ混入時の対応 table/ ├
2020-01-01/ ├ 2020-01-02/ ├ 2020-01-03 │ └ data-01.parquet ・ ・ ・ パーティションに分散したデータの修正は 現実的?
9.
ラムダアーキテクチャ Big Data基盤の懸念 • https://docs.microsoft.com/ja-jp/azure/architecture/data-guide/big-data/#lambda-architecture データソース 速報データ同士の結合は不要? データソース
10.
Delta Lake 活用シーン① -安全なデータの追加 •
追加(append)、 上書き(overwrite)操作をアト ミックに実行 • テーブル挿入時には自動でス キーマ検証を行い、不正データ を例外処理することでデータを 保護 df.write .format("delta") .mode("append") .save("/mnt/delta/events") 連携データ 生データ保管 バッチデータ 保管テーブル追加 or 上書き (ACID) 不正列データ 生データ保管 バッチデータ 保管テーブルスキーマチェック
11.
Delta Lake 活用シーン② -DMLによるデータ更新 •
Update、Delete、 Mergeをサ ポートし、データの修正・削除 Upsertを実行 • タイムトラベルにより復元可能 • パーティションの利用により高 速化が可能 • Databricksでは先行利用できた が、Delta Lake 0.3.0リリースで 実装(Announcing the Delta Lake 0.3.0 Release) ID eventType timestamp 1 clck 2020/4/1 23:00 2 clck 2020/4/1 23:01 3 conversion 2020/4/1 23:02 UPDATE events SET eventType = 'click’ WHERE eventType = 'clck' ID eventType data 1 click AAA 2 click BBB 3 conversion CCC ID eventType data 3 conversion ccc' 4 conversion DDD MERGE INTO events USING updates ON events.eventId = updates.eventId WHEN MATCHED THEN UPDATE SET events.data = updates.data WHEN NOT MATCHED THEN INSERT (date, eventId, data) VALUES (date, eventId, data) ID eventType data 1 clck AAA 2 clck BBB 3 conversion ccc' 4 conversion DDD
12.
Delta Lake 活用シーン③ -異なるソースデータの統合 •
Structured-Streamingを利用し たDataframe操作により、バッ チ、ストリームを容易に結合可 能 • Structured-Streamingでは追加 されたファイルのみを正確に処 理 spark.readStream .format("delta") .load("/mnt/delta/events") Or events.writeStream .format("delta") .outputMode("append") .option("checkpointLocation", “path") .start("/delta/events") ストリーム データ ストリーム データ バッチデータ ストリームデータ 保管テーブル ストリームデータ 保管テーブル バッチデータ 保管テーブル 集計速報テーブル ストリームデータ 統合テーブル ストリーム &バッチデータ統 合テーブル
13.
• Git • https://github.com/ryoma- nagata/MyDatabricks/blob/master/20200423demo/DeltaLakeDemo_JPNC ovid19.ipynb •
Slide Share • https://www.slideshare.net/ssuser61ea57 DEMO
14.
• https://pages.databricks.com/Solving-Business-Problems-Delta- Lake-eBook-lp.html?_ga=2.206963795.130091878.1587356867- 872940378.1579665710 • https://docs.delta.io/0.4.0/delta-intro.html •
https://docs.microsoft.com/ja-jp/azure/databricks/delta/delta- intro • https://databricks.com/blog/2019/10/03/simple-reliable-upserts- and-deletes-on-delta-lake-tables-using-python-apis.html • https://docs.microsoft.com/ja-jp/azure/architecture/data- guide/big-data/#lambda-architecture • https://kb.databricks.com/delta/delta-merge-into.html 参考リンク
15.
ご清聴ありがとうございました。
Download