[B! aws-glue-data-catalog] nabinnoのブックマーク

nabinno id:nabinno

aws-glue-data-catalogに関するnabinnoのブックマーク (13)

AWS Glue Data Catalog の開始方法 - AWS Glue
AWS Glue Data Catalog は永続的な技術メタデータストアです。AWS クラウドでメタデータを保存、注釈付け、および共有するために使用することができるマネージド型サービスです。詳細については、「AWS Glue Data Catalog」を参照してください。
nabinno 2024/12/08
aws-glue

aws-glue-data-catalog

database-catalog

data-management
リンク
AWS Glue データカタログとは？
AWS Glueのデータカタログは、データのメタデータを管理するための非常に便利なサービスです。データカタログを使うことで、データの整理、検索、管理が簡単になり、データ分析やETL（Extract, Transf orm, Load）ジョブの実行が容易になります。データカタログの基本機能 1. メタデータ管理データカタログは、データの「メタデータ」を管理します。メタデータとは、データの「データ」です。たとえば、テーブル名、列名、データ型、データの保存場所などが該当します。データベースとテーブルの定義データカタログは、データベースやテーブルのメタデータを管理します。たとえば、Amazon S3に保存されたデータファイルのスキーマ情報を登録できます。パーティション情報の管理データがパーティション化されている場合、そのパーティション情報もカタログに登録されます。これにより、クエリのパフ
nabinno 2024/12/08
zenn

aws-glue

aws-glue-data-catalog

database-catalog

data-management
リンク
MSCK REPAIR TABLE - Amazon Athena
Hive 互換パーティションを追加した後でカタログ内のメタデータを更新するには、MSCK REPAIR TABLE コマンドを使用します。 MSCK REPAIR TABLE コマンドは、テーブルの作成後にファイルシステムに追加された Hive 互換パーティションで Simple Storage Service (Amazon S3) などのファイルシステムをスキャンします。MSCK REPAIR TABLE は、テーブルメタデータのパーティションと S3 のパーティションを比較します。テーブルの作成時に指定した S3 の場所に新しいパーティションが存在する場合は、これらのパーティションがメタデータと Athena のテーブルに追加されます。物理パーティションを追加すると、カタログ内のメタデータがファイルシステム内のデータのレイアウトと整合しなくなるので、新しいパーティションに関する情報
nabinno 2024/05/15
amazon-athena

msck-repair-table

aws-glue-data-catalog

aws-glue

data-engineering
リンク
AWS Glue でのログ記録とモニタリング - AWS Glue
ETL (抽出、変換、ロード) ジョブの実行を自動化できます。AWS Glue は、モニタリングできるクローラとジョブのメトリクスを提供します。必要なメタデータを使用して AWS Glue Data Catalog を設定すると、AWS Glue は環境のヘルスに関する統計を提供します。クローラとジョブの呼び出しを、cron に基づく時間ベースのスケジュールで自動化することができます。イベントベースのトリガーが発生したときにジョブをトリガーすることもできます。 AWS Glue は、AWS Glue でユーザー、ロール、または AWS のサービスによって実行されたアクションを記録するサービスである AWS CloudTrail と統合されています。証跡を作成する場合は、Amazon Simple Storage Service (Amazon S3) バケット、Amazon CloudW
nabinno 2024/05/15
aws-glue

aws-glue-data-catalog

log-management

monitoring
リンク
AWS Lake Formation の概要 - AWS Lake Formation
AWS Lake Formation デベロッパーガイドへようこそ。 AWS Lake Formation は、分析と機械学習用のデータの一元管理、保護、グローバル共有に役立ちます。Lake Formation では、Amazon Simple Storage Service (Amazon S3) 上のデータレイクデータと AWS Glue Data Catalogの関連メタデータに対するきめ細かなアクセスコントロールを管理できます。 Lake Formation は、IAM 許可モデルを補強する独自の許可モデルを提供します。Lake Formation のアクセス許可モデルは、リレーショナルデータベース管理システム (RDMS) と同様のシンプルな付与または取り消しメカニズムを通じて、データレイクに保存されたデータに対するきめ細かなアクセスを可能にします。Lake Formation
nabinno 2024/05/14
aws-lake-formation

amazon-s3

aws-glue-data-catalog

access-control
リンク
Get started managing partitions for Amazon S3 tables backed by the AWS Glue Data Catalog | Amazon Web Services
AWS Big Data Blog Get started managing partitions for Amazon S3 tables backed by the AWS Glue Data Catalog Large organizations processing huge volumes of data usually store it in Amazon Simple Storage Service (Amazon S3) and query the data to make data-driven business decisions using distributed analytics engines such as Amazon Athena. If you simply run queries without considering the optimal data
nabinno 2024/05/14
anderson-dos-santos

amazon-s3

aws-glue

aws-glue-data-catalog
リンク
AWS Glueとは何か？ - Qiita
こいつに入門します。一言でいうと… マネージドETLサービスです。 ETLとは「Extract/Transf orm/Load」の略で、分析用に様々なデータを集める際に発生する「取り出す/変換する/取り込む」というプロセスを表しています。 Glueとは「糊」のことで、ETLにおいてAWSのリソースとリソースを繋ぐことの比喩になっているようです。 ※ややこしいですがDevOps Guruというサービスも最近出現しています。このGuruは「賢者」を表す別単語で、機械学習を活用した賢いサービスを比喩しているものと思われます。 Glueの概念図データソースから取り込んだデータをETLジョブで加工し、ターゲットに格納して分析などに利用します。 Glueのコンポーネントデータカタログ ETL処理をしたいデータのメタデータを管理するもの。元データ（データソース）からGlueのクローラーで抽出してきた
nabinno 2024/04/28
qiita

aws-glue

aws-glue-data-catalog

extract-transform-load

data-engineering
リンク
Amazon AthenaでS3上のファイルにSQLアクセスしてみる
Amazon Athenaとは Amazon Athenaとは、Amazon Web Services（AWS）のサービスの一つで、「標準 SQL を使用して Amazon Simple Storage Service （S3）でのデータの直接分析を簡易化するインタラクティブなクエリサービス」です。つまり、AWSのS3ストレージに置いてあるCSVファイルやJSONファイルに対して直接SQLを発行し、クエリの結果を得ることができるサービスです。構成イメージ Amazon Athenaを使ってみよう実際に使ってみましょう。例えば、S3に次のような生徒ごとの5教科のテスト結果の点数が書かれたcsvファイルがあるとします。このcsvファイルがAmazon Athenaからどう見えるか、みてみましょう。 csvファイルイメージ（テスト結果.csv）まずはS3にバケット・フォルダを作成し、
nabinno 2024/04/28
tdi

amazon-athena

amazon-s3

aws-glue-data-catalog
リンク
AWS Glue でのデータ検出とカタログ化 - AWS Glue
AWS Glue Data Catalog は、組織のデータセットに関するメタデータを保存する一元化されたリポジトリです。データソースの場所、スキーマ、およびランタイムメトリクスへのインデックスとして機能します。メタデータはメタデータテーブルに保存され、そこでは各テーブルが 1 つのデータストアを表します。データソースを自動的にスキャンしてメタデータを抽出するクローラーを使用してデータカタログに入力できます。クローラーは、内部 (AWS ベース) および AWS 外部のデータソースに接続できます。サポートされるデータソースについては、「クロールでサポートされているデータソース」を参照してください。特定の要件に応じてテーブル構造、スキーマ、パーティション構造を定義することで、データカタログにテーブルを手動で作成することもできます。メタデータテーブルの手動作成について詳しくは、「メタデ
nabinno 2024/04/28
aws-glue

aws-glue-data-catalog

aws-glue-crawler

data-engineering
リンク
AWS Glue Data Catalog を理解する - Qiita
AWS Glue Data Catalog を理解するために初めてクラウドサービスを使用する&初めてAWS Glue で ETL 処理のジョブを作って色々やってみようとするとき、不意に登場するのが　AWS Glue Data Catalog ではないだろうか。「何のために Data Catalog は存在するのだ？」「Data Catalog はなくても ETL できるんじゃないの？」こんな思いをした皆さんにこの記事が参考になれば幸いです。本来はより詳細な Data Catalog の技術記事を紹介しようと思いましたが、今回は「Data Catalog は重要なのね」と理解することがゴールになります。また、ただのツール説明ではなく、データエンジニアリングやデータ基盤を構築するデータエンジニアとしての視点を交えて書いてみました。とりあえず AWS Glue Data Catalo
nabinno 2024/04/26
qiita

aws-glue-data-catalog

aws-glue

database-catalog

data-management
リンク
Apache Hive メタストアを Amazon EMR に移行してデプロイする | Amazon Web Services
Amazon Web Services ブログ Apache Hive メタストアを Amazon EMR に移行してデプロイする Amazon EMR の速さと柔軟性を、Apache Hive の有用性とユビキタス性と組み合わせることで、両方の長所が得られます。ただし、ビッグデータプロジェクトを始めるのは容易なことではありません。EMR に新しいデータをデプロイする場合でも、既存のプロジェクトを移行する場合でも、この記事では開始するための基本を説明します。 Apache Hive は、Apache Hadoop クラスターで動作するオープンソースのデータウェアハウスおよび分析パッケージです。Hive メタストアには、パーティション名やデータ型など、テーブルとその基礎となるデータの説明が含まれています。Hive は、EMR で実行できるアプリケーションの 1 つです。この記事が提示す
nabinno 2024/04/18
tanzir-musabbir

apache-hive

amazon-emr

data-migration

aws-glue-data-catalog

aws-glue
リンク
AWS Glue Data Catalog のデータベースとテーブルへのアクセスを構成する - Amazon Athena
Amazon Athena で AWS Glue Data Catalog を使用している場合は、Athena で使用されるデータベースとテーブルの Data Catalog オブジェクトのリソースレベルのポリシーを定義できます。
nabinno 2024/04/08
aws-glue

aws-glue-data-catalog

access-control
リンク
Improve Amazon Athena query performance using AWS Glue Data Catalog partition indexes | Amazon Web Services
AWS Big Data Blog Improve Amazon Athena query performance using AWS Glue Data Catalog partition indexes The AWS Glue Data Catalog provides partition indexes to accelerate queries on highly partitioned tables. In the post Improve query performance using AWS Glue partition indexes, we demonstrated how partition indexes reduce the time it takes to fetch partition information during the planning phase
nabinno 2021/11/25
noritaka-sekiyama

amazon-athena

aws-glue

aws-glue-data-catalog
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx