ETL処理のユースケースや、ETL処理のセオリーを解説します。 2018/05/23(水)開催の「PLAZMA Data Engineer Day: TD Tech Talk 2018」にてお話ししたスライドです。 https://techplay.jp/event/669346Read less

2017 年 12 月に東京リージョンでサービス提供が開始され、日本のお客様による検討、導入が進み始めました。
質の高い結果を得るためにデータを準備することは、分析または AI プロジェクトの最初のステップです。AWS Glue は、データ統合をよりシンプル、迅速、低コストにするサーバーレスサービスです。100 を超える多様なデータソースを検出して接続し、一元化されたデータカタログでデータを管理するとともに、データパイプラインを視覚的に作成、実行、モニタリングして、データをデータレイク、データウェアハウス、レイクハウスにロードできます。生成 AI 機能が組み込まれているため、ETL オーサリングと Spark のトラブルシューティングのインテリジェントな支援を活用して、Apache Spark ジョブをモダナイズし、開発を加速できます。
こんにちは、インフラ部データ基盤グループの小玉です。 データ基盤グループでは、Amazon Redshift(以下、Redshift)へ継続的にデータをロードする仕組みを、約半年に渡り構築・運用してきました。この記事では、その中で学んだことを共有させて頂きます。 弊社では情報系システムの一部に、AWSが提供するRedshiftという分散データベースを利用しています。情報系システムとは、データ分析を主な用途とするシステムのことです。なかでもRedshiftはSQLを使った大量データの高速な分析に最適化されているため、DWH(データウェアハウス)としての利用に適しています。 DWHの構築に必要なタスクとしては、データソースの特定、モデリング、データの抽出・変換・ロード(ETL)、クエリツールやBIツール導入、パフォーマンス・チューニング、メタデータの管理、バックアップ・リストアなど、があります
こんにちは、みんなのウェディングの小室 (id:hogelog) です。 今回はみんなのウェディングにおけるデータ分析基盤の現状についてご報告させていただきます。 三行まとめ 忙しい人のために先に結論を書くと bricolage と embulk で Redshift に集めて re:dash で分析 です。 データ収集 データ収集は bricolage のジョブネット機構を用いて bricolage の各種ジョブや embulk を連携させ、Redshift にデータを取り込んでいます。 参考までに https://github.com/hogelog/dwh-example に簡単な構成例を準備しました。 MySQL → Redshift みんなのウェディング http://www.mwed.jp/ のデータベースとしては MySQL を利用しています。 MySQL から Redshi
リクルートライフスタイルのビッグデータ 300本のバッチが流れ、300人の分析者がクエリを投げるビッグデータ基盤 こんにちは、データ基盤チームの平本です。 我々、データ基盤チームのミッションは2つあります。 リクルートライフスタイル各サービスの分析担当者に対して、そのサービス、もしくは複数のサービスにまたがったユーザの行動を分析できる環境を提供する 各サービスのデータを使ったOne to One、Cross-use施策のバッチを開発・運用し、各サービスに価値を提供する 今回は第1回目ということで、我々が構築・運用しているビッグデータ環境の全体像について紹介します。 基盤の全体像 我々の基盤は、リクルートライフスタイル全サービスのデータを収集しています。 収集したデータを基に、分析に使うマートやレコメンドに使うデータを作成しており、レコメンドのデータをサービス側のDBへエクスポートしたり、レ
AWS Summit Tokyo 2015のTA-03: Tech Deep Dive by Amazon:「Amazon Redshift Integration Deep Dive」のレポートです。 スピーカーはAmazon Data Services Japanの八木橋 徹平氏。 レポート このセッションの目的 このセッションはRedshiftの使い方がある程度わかっている人に自社システムやAWSの他サービスとの連携方法のコツを知ってもらうことにある。Redshift固有のクセや設定があるため、端的にいうとRedshiftにいかに効率よくデータを入れるためにETL(Extract + Transform + Load) + Uploadを行うか、というセッションである。 Redshiftおさらい Redshiftの特徴 →MPP(超並列演算)、論理的なリソースの括り「ノードスライス」
スマートニュースは昨年の 10/1 に米国版をローンチするにあたり、ログ解析基盤のリニューアルを行いました。日本に加えて米国やその他の国が入ってくることにより、単なるユーザ数の増加に加え、OS x 国 x タイムゾーン x 多種多様なメトリクスのような集計軸が増えることで、ログの前処理、集計、可視化に様…
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く