[B! aws-glue-crawler] nabinnoのブックマーク

nabinno id:nabinno

aws-glue-crawlerに関するnabinnoのブックマーク (9)

Workshop Studio
nabinno 2024/07/25
aws-cur

cost-management

aws-glue-crawler

amazon-athena
リンク
S3 にあるダブルクォーテーション引用符の CSV データを Glue のクローラで検出し、Athena でクエリ実行する | DevelopersIO
こんにちは!! 筧( @TakaakiKakei )です。皆さんは Athena でダブルクォーテーション引用符の CSV データを扱う際に、うまくテーブル作成ができなかった経験はありませんか？先日、当該データを Athena で分析する際に少し引っかかったので、作成方法の1つを紹介したいと思います。それでは早速やっていくっ！！目標 Athena で対象の CSV データをクエリした際に以下のように表示することが目標です。実践 CSV データを用意以下のような CSV データを用意しますファイル名：price-list.csv ファイルの中身： CSV データを S3 に保存以下のような S3 バケットとフォルダを作成して、用意した CSV データをアップロードしますバケット名： demo-athena-csv-data-XXXXXXXXXXXX （末尾の X は自身の
nabinno 2024/05/29
classmethod

takaaki-kakei

aws-glue

aws-glue-crawler

opencsvserde

serde

csv
リンク
ダブルクオート引用符の CSV を Glue クローラでテーブル作成時に認識させる - ablog
Glue クローラでテーブル作成後にテーブルを編集する。 Serde シリアル化ライブラリを org.apache.hadoop.hive.serde2.OpenCSVSerde に変更 Serde パラメータから field.delim : , を削除 Serde パラメータに以下を追加 escapeChar : \ quoteChar : " separatorChar : , 参考 S3 にあるダブルクォーテーション引用符の CSV データを Glue のクローラで検出し、Athena でクエリ実行する | DevelopersIO
nabinno 2024/05/29
aws-glue

aws-glue-crawler

opencsvserde

serde

csv
リンク
クロールでサポートされているデータソース - AWS Glue
Amazon S3 自分のアカウントのパスをクロールするか、または別のアカウントのパスをクロールするかを選択できます。フォルダにあるすべての Amazon S3 ファイルが同じスキーマを持つ場合、クローラーはテーブルを 1 つ作成します。また、Amazon S3 オブジェクトが分割されている場合、メタデータテーブルは 1 つしか作成されず、そのテーブルのパーティション情報がデータカタログに追加されます。 Amazon S3 と Amazon DynamoDB クローラーは、AWS Identity and Access Management (IAM) ロールをアクセス許可のために使用して、データストアにアクセスします。クローラーに渡すロールは、クロールされる Amazon S3 パスと Amazon DynamoDB テーブルにアクセスするためのアクセス許可を持っている必要があります。
nabinno 2024/04/28
aws-glue

aws-glue-crawler

amazon-s3

amazon-dynamodb

apache-iceberg

apache-hudi

amazon-redshift

snowflake

amazon-aurora

data-engineering
リンク
AWS Glue でのデータ検出とカタログ化 - AWS Glue
AWS Glue Data Catalog は、組織のデータセットに関するメタデータを保存する一元化されたリポジトリです。データソースの場所、スキーマ、およびランタイムメトリクスへのインデックスとして機能します。メタデータはメタデータテーブルに保存され、そこでは各テーブルが 1 つのデータストアを表します。データソースを自動的にスキャンしてメタデータを抽出するクローラーを使用してデータカタログに入力できます。クローラーは、内部 (AWS ベース) および AWS 外部のデータソースに接続できます。サポートされるデータソースについては、「クロールでサポートされているデータソース」を参照してください。特定の要件に応じてテーブル構造、スキーマ、パーティション構造を定義することで、データカタログにテーブルを手動で作成することもできます。メタデータテーブルの手動作成について詳しくは、「メタデ
nabinno 2024/04/28
aws-glue

aws-glue-data-catalog

aws-glue-crawler

data-engineering
リンク
AthenaとGlueを利用して、データソースへのSQLクエリ実行環境を準備する - サーバーワークスエンジニアブログ
こんにちは、CI2部の加藤ゆです。 Athenaを利用したデータ分析を実施するための環境準備作業をやっていきます。 Amazon Athena とは？ AWS Glueとは？ Glue Data Catalog Glueクローラ AthenaとGlueの関係本記事でやること前提条件作業手順１．Databaseの作成２．AWS Glue データカタログにテーブルを定義する Set crawler properties Choose data sources and classifiers Configure security settings Set output and scheduling ３．クローラを実行する４．AthenaでGlue Data Catalogのデータを参照するクエリエディタでSQLの実行おわり Amazon Athena とは？ Athena の用
nabinno 2023/11/15
serverworks

amazon-athena

aws-glue

aws-glue-crawler

data-engineering
リンク
Amazon S3 イベント通知を使用した加速クロール - AWS Glue
Amazon S3 または Data Catalog ターゲットからオブジェクトを一覧表示する代わりに、Amazon S3 イベントを使用して変更を検索するようにクローラーを設定できます。この機能は、Amazon S3 または Data Catalog ターゲット全体を一覧表示するのではなく、Amazon S3 イベントを使用してイベントをトリガーしたサブフォルダからのすべてのファイルを一覧表示して 2 つのクロール間の変更を識別することによって、再クロール時間を短縮します。最初のクロールでは、ターゲットからのすべての Amazon S3 オブジェクトを一覧表示します。最初のクロールの成功後、手動または設定されたスケジュールでリクロールを選択できます。クローラーは、すべてのオブジェクトをリストするのではなく、それらのイベントのオブジェクトのみをリストします。ターゲットが Data Ca
nabinno 2023/11/15
aws-glue

aws-glue-crawler
リンク
AWS Glueの「AmazonS3イベント通知を使用した加速クロール」とは何か | NHN テコラス Tech Blog | AWS、Google Cloudなどのインフラ技術ブログ
Amazon S3 イベント通知を使用した加速クロールを業務で利用する機会がありました。そこで得られた知見などをここで共有したいと思います。 AWS Glueとは何か、AWS Glue Crawlerとは何かという基本的な情報は省きますので、こちらを知りたい場合は以下の資料などでの参照をお願いします。 AWS BlackBelt Glue 簡単にまとめると「GlueCrawlerがS3イベントとSQSを使うことで、通常よりも読み込むデータ量が少なくなり、結果的にコスト削減や処理速度が上がる仕組み」となります。通常のクローラーの場合は以下のように、クローラーに設定されたS3のパスをクローリングして、その結果をDataCatalogに保存します。加速クロールでは以下の図のように、通常のクローラーの構成に加えてS3のイベント通知機能とSQSを利用します。あらかじめS3のイベント通知機能にS
nabinno 2023/11/15
aws-glue

amazon-s3

aws-glue-crawler

amazon-sqs
リンク
クローラーを使用したデータカタログへの入力 - AWS Glue
AWS Glue クローラーを使用して、AWS Glue Data Catalog にデータベースとテーブルを入力できます。これは、AWS Glue ユーザーが最もよく使用する基本的な方法です。クローラーは 1 回の実行で複数のデータストアをクロールできます。完了すると、クローラーはデータカタログで 1 つ以上のテーブルを作成または更新します。AWS Glue で定義した抽出、変換、ロード (ETL) ジョブは、これらのデータカタログテーブルをソースおよびターゲットとして使用します。ETL ジョブは、ソースおよびターゲットのデータカタログテーブルで指定されているデータストアに対して読み取りと書き込みを行います。ワークフロー次のワークフロー図は、AWS Glue クローラーがデータストアや他の要素とやり取りしてデータカタログに入力する方法を示しています。クローラーが選択した任意のカス
nabinno 2021/03/18
aws-glue

aws-glue-crawler
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx