AWS Glue Data Catalog は永続的な技術メタデータストアです。AWS クラウドでメタデータを保存、注釈付け、および共有するために使用することができるマネージド型サービスです。詳細については、「AWS Glue Data Catalog」を参照してください。
AWS Glueのデータカタログは、データのメタデータを管理するための非常に便利なサービスです。データカタログを使うことで、データの整理、検索、管理が簡単になり、データ分析やETL(Extract, Transform, Load)ジョブの実行が容易になります。 データカタログの基本機能 1. メタデータ管理 データカタログは、データの「メタデータ」を管理します。メタデータとは、データの「データ」です。たとえば、テーブル名、列名、データ型、データの保存場所などが該当します。 データベースとテーブルの定義 データカタログは、データベースやテーブルのメタデータを管理します。たとえば、Amazon S3に保存されたデータファイルのスキーマ情報を登録できます。 パーティション情報の管理 データがパーティション化されている場合、そのパーティション情報もカタログに登録されます。これにより、クエリのパフ
Hive 互換パーティションを追加した後でカタログ内のメタデータを更新するには、MSCK REPAIR TABLE コマンドを使用します。 MSCK REPAIR TABLE コマンドは、テーブルの作成後にファイルシステムに追加された Hive 互換パーティションで Simple Storage Service (Amazon S3) などのファイルシステムをスキャンします。MSCK REPAIR TABLE は、テーブルメタデータのパーティションと S3 のパーティションを比較します。テーブルの作成時に指定した S3 の場所に新しいパーティションが存在する場合は、これらのパーティションがメタデータと Athena のテーブルに追加されます。 物理パーティションを追加すると、カタログ内のメタデータがファイルシステム内のデータのレイアウトと整合しなくなるので、新しいパーティションに関する情報
ETL (抽出、変換、ロード) ジョブの実行を自動化できます。AWS Glue は、モニタリングできるクローラとジョブのメトリクスを提供します。必要なメタデータを使用して AWS Glue Data Catalog を設定すると、AWS Glue は環境のヘルスに関する統計を提供します。クローラとジョブの呼び出しを、cron に基づく時間ベースのスケジュールで自動化することができます。イベントベースのトリガーが発生したときにジョブをトリガーすることもできます。 AWS Glue は、AWS Glue で ユーザー、ロール、または AWS のサービスによって実行されたアクションを記録するサービスである AWS CloudTrail と統合されています。証跡を作成する場合は、Amazon Simple Storage Service (Amazon S3) バケット、Amazon CloudW
AWS Lake Formation デベロッパーガイドへようこそ。 AWS Lake Formation は、分析と機械学習用のデータの一元管理、保護、グローバル共有に役立ちます。Lake Formation では、Amazon Simple Storage Service (Amazon S3) 上のデータレイクデータと AWS Glue Data Catalogの関連メタデータに対するきめ細かなアクセスコントロールを管理できます。 Lake Formation は、IAM 許可モデルを補強する独自の許可モデルを提供します。Lake Formation のアクセス許可モデルは、リレーショナルデータベース管理システム (RDMS) と同様のシンプルな付与または取り消しメカニズムを通じて、データレイクに保存されたデータに対するきめ細かなアクセスを可能にします。Lake Formation
AWS Big Data Blog Get started managing partitions for Amazon S3 tables backed by the AWS Glue Data Catalog Large organizations processing huge volumes of data usually store it in Amazon Simple Storage Service (Amazon S3) and query the data to make data-driven business decisions using distributed analytics engines such as Amazon Athena. If you simply run queries without considering the optimal data
こいつに入門します。 一言でいうと… マネージドETLサービスです。 ETLとは「Extract/Transform/Load」の略で、分析用に様々なデータを集める際に発生する「取り出す/変換する/取り込む」というプロセスを表しています。 Glueとは「糊」のことで、ETLにおいてAWSのリソースとリソースを繋ぐことの比喩になっているようです。 ※ややこしいですがDevOps Guruというサービスも最近出現しています。このGuruは「賢者」を表す別単語で、機械学習を活用した賢いサービスを比喩しているものと思われます。 Glueの概念図 データソースから取り込んだデータをETLジョブで加工し、ターゲットに格納して分析などに利用します。 Glueのコンポーネント データカタログ ETL処理をしたいデータのメタデータを管理するもの。元データ(データソース)からGlueのクローラーで抽出してきた
Amazon Athenaとは Amazon Athenaとは、Amazon Web Services(AWS)のサービスの一つで、「標準 SQL を使用して Amazon Simple Storage Service (S3) でのデータの直接分析を簡易化するインタラクティブなクエリサービス」です。 つまり、AWSのS3ストレージに置いてあるCSVファイルやJSONファイルに対して直接SQLを発行し、クエリの結果を得ることができるサービスです。 構成イメージ Amazon Athenaを使ってみよう 実際に使ってみましょう。 例えば、S3に次のような生徒ごとの5教科のテスト結果の点数が書かれたcsvファイルがあるとします。このcsvファイルがAmazon Athenaからどう見えるか、みてみましょう。 csvファイルイメージ(テスト結果.csv) まずはS3にバケット・フォルダを作成し、
AWS Glue Data Catalog は、組織のデータセットに関するメタデータを保存する一元化されたリポジトリです。データソースの場所、スキーマ、およびランタイムメトリクスへのインデックスとして機能します。メタデータはメタデータテーブルに保存され、そこでは各テーブルが 1 つのデータストアを表します。 データソースを自動的にスキャンしてメタデータを抽出するクローラーを使用してデータカタログに入力できます。クローラーは、内部 (AWS ベース) および AWS 外部のデータソースに接続できます。 サポートされるデータソースについては、「クロールでサポートされているデータソース」を参照してください。 特定の要件に応じてテーブル構造、スキーマ、パーティション構造を定義することで、データカタログにテーブルを手動で作成することもできます。 メタデータテーブルの手動作成について詳しくは、「メタデ
AWS Glue Data Catalog を理解するために 初めてクラウドサービスを使用する&初めてAWS Glue で ETL 処理のジョブを作って色々やってみようとするとき、不意に登場するのが AWS Glue Data Catalog ではないだろうか。 「何のために Data Catalog は存在するのだ?」 「Data Catalog はなくても ETL できるんじゃないの?」 こんな思いをした皆さんにこの記事が参考になれば幸いです。 本来はより詳細な Data Catalog の技術記事を紹介しようと思いましたが、今回は「Data Catalog は重要なのね」と理解することがゴールになります。また、ただのツール説明ではなく、データエンジニアリングやデータ基盤を構築するデータエンジニアとしての視点を交えて書いてみました。 とりあえず AWS Glue Data Catalo
Amazon Web Services ブログ Apache Hive メタストアを Amazon EMR に移行してデプロイする Amazon EMR の速さと柔軟性を、Apache Hive の有用性とユビキタス性と組み合わせることで、両方の長所が得られます。ただし、ビッグデータプロジェクトを始めるのは容易なことではありません。EMR に新しいデータをデプロイする場合でも、既存のプロジェクトを移行する場合でも、この記事では開始するための基本を説明します。 Apache Hive は、Apache Hadoop クラスターで動作するオープンソースのデータウェアハウスおよび分析パッケージです。Hive メタストアには、パーティション名やデータ型など、テーブルとその基礎となるデータの説明が含まれています。Hive は、EMR で実行できるアプリケーションの 1 つです。 この記事が提示す
AWS Big Data Blog Improve Amazon Athena query performance using AWS Glue Data Catalog partition indexes The AWS Glue Data Catalog provides partition indexes to accelerate queries on highly partitioned tables. In the post Improve query performance using AWS Glue partition indexes, we demonstrated how partition indexes reduce the time it takes to fetch partition information during the planning phase
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く