タグ

BigQueryに関するmisshikiのブックマーク (77)

  • GeminiでdbtのDescriptionを自動補完したら、2,000件以上のメタデータ整備が1分以内で完了した話 - LegalOn Technologies Engineering Blog

    はじめに 株式会社LegalOn Technologiesでアナリティクスエンジニアをしている鈴木です。 データ活用の現場では、メタデータの品質が分析や開発の効率を大きく左右します。特に、データベースのカラム定義(description)は、データの意味や使い方を理解する上で重要な役割を果たしています。 今回は、Gemini(生成AI)を活用してBigQueryのテーブルdescriptionを半自動補完する取り組みについてご紹介します。この施策により、データの可視性・可読性が向上し、チーム全体のデータ活用効率が改善されました。 現在の環境 現在のデータウェアハウスを取り巻く環境は以下の構成となっています。 BigQuery上のデータマートを効率的にデータモデリングするツールとしてdbtを採用している dbtにより、dl(データレイク)・dwh(データウェアハウス)・dm(データマート)の

    GeminiでdbtのDescriptionを自動補完したら、2,000件以上のメタデータ整備が1分以内で完了した話 - LegalOn Technologies Engineering Blog
    misshiki
    misshiki 2025/05/26
    “Geminiを活用してBigQueryのテーブルカラムのdescriptionを半自動補完する仕組みを構築し、データの可視性と保守性を向上させる”
  • VS Code+GitHub CopilotやCursorでBigQueryのAIコーディングをしよう 〜練習問題リポジトリを添えて〜|Mercari Analytics Blog

    VS Code+GitHub CopilotやCursorでBigQueryのAIコーディングをしよう 〜練習問題リポジトリを添えて〜 はじめに:データドリブンな意思決定を、AIで加速する時代へはじめまして、メルカリのProduct Growth Analyticsチームのじゃっこと申します。 主にメルカリShopsや物流関連の分析を担当しつつ、最近はチーム全体の生成AI活用も推進しています。 昨今、GitHub Copilotを始めとするAIコーディング支援ツールや、CursorのようなAIネイティブなエディタの急速な普及は、私たちの分析業務に大きな変革をもたらしつつあります。 しかしその一方で、「その実力はよく耳にするものの、具体的にどう活用すれば良いのか、どこから試せば良いのか分からない」という方も少なくないのではないでしょうか。 このような背景から、最近社内で実施したAIコーディン

    VS Code+GitHub CopilotやCursorでBigQueryのAIコーディングをしよう 〜練習問題リポジトリを添えて〜|Mercari Analytics Blog
    misshiki
    misshiki 2025/05/23
    “BigQueryのオープンデータを活用し、より実践的な形で皆様にも体験していただけるよう、本記事を再構成”
  • BigQuery × GitHubで始める行動量の可視化【AI導入後の変化をラフに捉えるために】 | Wantedly Engineer Blog

    こんにちは。ウォンテッドリーでバックエンドエンジニアをしている市古(@sora_ichigo_x)です。 最近は Enabling チームとしての役割を持ち、Visit の新規開発や、バックエンドアーキテクチャの改善に取り組んでいます。 現在、Enablingチームでは技術的な取り組みを社外にも発信すべく、メンバーが週替わりで技術ブログをリレー形式で執筆しています。前回は冨永さんによる「AWSSESとSQSを活用したメール受信機能の実装」 でした。今回は、GitHub x BigQueryで開発行動量を可視化する社内基盤の紹介をしたいと思います。 目次はじめに なぜ行動量を見るのか 新しい取り組みの変化はまず行動に出る 何を見ているのか 可視化する指標はシンプルにする GitHub 行動量を KPI 化してはいけない 余談:初期プロトタイプ時点での要求一覧 どうやって可視化しているか B

    BigQuery × GitHubで始める行動量の可視化【AI導入後の変化をラフに捉えるために】 | Wantedly Engineer Blog
    misshiki
    misshiki 2025/05/21
    “GitHub x BigQueryで開発行動量を可視化する社内基盤の紹介”
  • BigQueryとGeminiの連携で広がるSQLの世界 | 株式会社プリンシプル

    近年、生成AIの活用が企業のデータ分析において重要なトレンドとなっています。その中で、BigQueryが提供する”ML.GENERATE_TEXT”関数は、データベースとAIの融合という新しい可能性を開きました。 この関数を使うには「存在そのものがあまり知られていない」「使い方が難しい」「利用するためには別途”BigQuery ML リモートモデル”を作成する必要がある」というハードルがあります。そのため、あまり使われていない印象です。 しかしながら、この”ML.GENERATE_TEXT”関数はとても強力です。記事では、「この”ML.GENERATE_TEXT”関数で何ができるのか?」「どのように活用するのか?」「利用方法と注意点」を解説していきます。 ML.GENERATE_TEXT関数で何ができるのか? “ML.GENERATE_TEXT”関数は、BigQueryのSQLクエリを介

    BigQueryとGeminiの連携で広がるSQLの世界 | 株式会社プリンシプル
    misshiki
    misshiki 2025/05/09
    “「この”ML.GENERATE_TEXT”関数で何ができるのか?」「どのように活用するのか?」「利用方法と注意点」を解説”
  • MCPでのデータベースとの対話+資料化 - Qiita

    はじめに 以前から話題になっていたMCP(Model Context Protocol)ですが、Anthropicの独自規格の範囲に留まらず、OpenAIが公式に採用を発表した事で一気に火がつき、最近は至るところでMCPという単語が躍るようになりました。 今回はMCPを利用したデータベースとの対話+資料化までのデモを1つのユースケースとして残しておきたいと思います。 ■構成 クライアント:Claude Desktop データベース:BigQuery データベースとの対話+資料化デモ BigQueryのMCPサーバーについては以下2つが公開されています。 機能的にはほぼ一緒なのですが、後者はデータセット名までパラメータで渡せるので、こちらを使っていきます。 Claude Desktopの構成で以下の設定をするだけで、すぐに使えます。 "mcpServers": { "bigquery": {

    MCPでのデータベースとの対話+資料化 - Qiita
    misshiki
    misshiki 2025/05/01
    “MCPを利用したデータベースとの対話+資料化までのデモ”
  • BigQuery MLの新機能「TimesFM」を試してみた - NRIネットコムBlog

    はじめに TimesFM とは TimesFM の一般的な利用シーン 実際に使ってみた 予測精度を実測値と比較してみる まとめ はじめに ラスベガスから帰国後、アメリカのジャンキーなご飯と色の濃い飲料が恋しい、松村です。 ブログでは、前回投稿した記事(※1)にてご紹介した BigQuery ML の新機能のうちの一つ「TimesFM」(プレビュー版)を試した内容をまとめます。具体的には、TimesFM モデルと、WEB サイトの SEO(検索エンジン最適化)をサポートする無料ツール「Google Search Console」(※2) の BigQuery にエクスポートされたデータを組み合わせて、WEB サイト全体の検索パフォーマンスを予測する方法をご紹介します。 (※1)【Google Cloud Next 2025 in Las Vegas】Day 2 参加レポート ~ BigQu

    BigQuery MLの新機能「TimesFM」を試してみた - NRIネットコムBlog
    misshiki
    misshiki 2025/04/21
    “TimesFMは、Google が開発した時系列データ予測のための基盤モデルです。”
  • 生成AIモデルGeminiとBigQueryで実現! データ分析の効率と効果を飛躍的に向上させる方法

    生成AIによってデータの民主化は現実的に 内閣府は2023年8月、日国内で企業のビッグデータが生んだ価値は、10年から20年の平均で国内総生産(GDP)に換算すると、1年で17兆円になるという推計を発表した。「20年というとまだ生成AIがそれほど活用されていなかった時代。今だとデータの価値は20兆円超になると思われる」(山田氏) このようにデータは非常に重要なものだが、データ活用をする上で、さまざまな課題にぶつかる企業も多い。 「変化の激しいビジネス環境で生き残るには、データに基づいた迅速な意思決定が不可欠だが、従来の専門家依存のデータ分析では時間がかかり過ぎることや、データを見る人が毎回同じだと多角的に見ることが難しい上、分析できる量や種類が限られるという課題があった」(山田氏) グーグル・クラウド・ジャパン合同会社 データアナリティクス スペシャリスト 山田 雄氏 このような課題を解

    生成AIモデルGeminiとBigQueryで実現! データ分析の効率と効果を飛躍的に向上させる方法
    misshiki
    misshiki 2025/03/31
    “第1のフェーズは「データ発見・準備」。BigQuery上でGeminiを使うと、さまざまなデータのアセットに対してセマンティック検索(自然文での検索)ができるようになる。”
  • データモデリングでよく利用するBigQuery SQLのクエリパターン

    記事は、データ推進室 Advent Calendar 2024 24日目の記事です はじめに こんにちは。HR領域でアナリティクスエンジニアのテックリードをしている山家雄介です。 アナリティクスエンジニアが担当する業務の一つに、データ利用者向けのいわゆるデータマートの設計・開発があります。これは、さまざまな仕様のデータソースを適切に組み合わせて、データ利用者の業務上の目的を達成することを助ける、平易に理解しやすく、ドキュメントも整備されたテーブル群を設計・開発し提供していく営みです。この業務を首尾よく進めていくには、dbtやDataformといったデータモデリングのツールの機能性を深く理解すると同時に、利用しているデータ分析基盤のSQLの仕様や機能性もよく理解しておく必要があります。 同じSQLという言語仕様の中でも、データマートの利用者によく利用される機能性と、それを開発するデータモデ

    データモデリングでよく利用するBigQuery SQLのクエリパターン
    misshiki
    misshiki 2025/03/13
    “データモデリングでよく利用するクエリのパターンをカテゴリ別にご紹介します。”
  • BigQueryストレージのライフサイクルと課金モデルという視点から費用の計算方法を整理する - ZOZO TECH BLOG

    こんにちは。千葉県の特産品として真っ先に思い浮かぶものがヨウ素*1な、データシステム部データ基盤ブロックの塩崎です。 この記事ではBigQueryストレージの費用を計算する方法と、費用を節約するための戦略について説明します。BigQueryストレージの費用計算をするために、まずストレージを2軸・8種類に分類し、それぞれの軸の視点から費用節約をする方法を紹介します。特にTime travel機能やFail-safe機能が関わると計算ミスをしやすくなるため、それらについても説明します。 ストレージの分類 最初にBigQueryストレージを分類するための2つの軸を説明します。1つ目の軸はライフサイクルで、これはテーブルの更新・変更・削除等の操作によって変化するものです。2つ目の軸は課金モデルで、これは非圧縮状態のデータ量で費用を計算するか圧縮済み状態のデータ量で費用を計算するかを決めるものです。

    BigQueryストレージのライフサイクルと課金モデルという視点から費用の計算方法を整理する - ZOZO TECH BLOG
    misshiki
    misshiki 2025/02/21
    “BigQueryのテーブル費用をライフサイクルと課金モデルという2軸から体系的に説明”
  • BigQueryのアンチパターン認識ツールで独自のSQLリンターを開発しました - ZOZO TECH BLOG

    こんにちは、株式会社ZOZOで25卒の内定者アルバイトをしている村井です。この記事では業務で取り組んでいる、BigQueryで使うSQLのリンターの作成方法について紹介します。 目次 目次 課題と解決策 課題 解決策 BigQueryのアンチパターン認識ツール ミニマムな使い方 日語がSQL内に含まれている際の問題 アンチパターンを定義する リンターとしてBigQueryのアンチパターン認識ツールを使用する際に生じる課題と解決策 構成 APIサーバ化 Chrome拡張 動作例 まとめ 課題と解決策 課題 社内では様々なチームがSQLを書いており、動作はするものの良くない書き方をしている場合があります。そういった構文を検知して、前もって修正する必要があります。 解決策 BigQueryのコンソールで入力されたSQLの不正構文を検知、修正案を提示できるようにしました。 BigQueryのアン

    BigQueryのアンチパターン認識ツールで独自のSQLリンターを開発しました - ZOZO TECH BLOG
    misshiki
    misshiki 2025/01/30
    “BigQueryのアンチパターン認識ツールとはGoogleが作成しているBigQueryのアンチパターンを教えてくれるツールです。”
  • BigQueryでJSON文字列を攻略する関数たち - ドワンゴ教育サービス開発者ブログ

    はじめに ドワンゴ教育事業でデータアナリストとして働いている小林です。 ドワンゴ教育事業におけるデータアナリストは企画開発組織の一員としてKPI可視化やレポーティングなどをメイン業務としています。個人的には新たなサービスが生まれる瞬間のお仕事が一番好きで、「何の指標をみていくのか」「どんなデータが流れてくるのか」など少し上流の工程からデータの取り扱いを検討するとともに、既存のダッシュボードをバージョンアップする良い機会にしたり、新たなステークホルダーに対して良いデータ分析の提供を考えたりと、楽しい日々が続きます。 私たちドワンゴ教育事業では大学開学やR高の開校など大きなサービスリリースが予定されていますので、サービス環境の変化を楽しみながらやりがいをポジティブなパワーに変えていきたいと思っています! 課題について(導入に代えて) 昨今、分析対象としてJSON文字列を取り扱うことが増えてきま

    BigQueryでJSON文字列を攻略する関数たち - ドワンゴ教育サービス開発者ブログ
    misshiki
    misshiki 2025/01/23
    “UNNESTやJSON関数”
  • ジョブエクスプローラでBigQueryのボトルネックをリサーチする - バイセル Tech Blog

    こちらはバイセルテクノロジーズ Advent Calendar 2024 の20日目の記事です。 昨日は辻岡さんによる「品質とスピードを両立するためにチーム体制を変えている話」でした。 こんにちは。データエンジニアの遠藤です。現在、私はデータサイエンス部に所属して「Pocket」と呼ばれる全社データ基盤の開発・運用に従事しています。 記事では、ジョブエクスプローラを用いることでBigQueryのボトルネックを容易にリサーチできるようになった件について報告します。 Pocketについて ダッシュボードでのBigQueryモニタリング Google Cloudが標準で提供するダッシュボードの利用 ダッシュボードの自作 ジョブエクスプローラ ジョブエクスプローラを実際に使ってみる ジョブエクスプローラのメリット ボトルネックが容易に特定できるようになった クエリコストをかけずにボトルネックを探

    ジョブエクスプローラでBigQueryのボトルネックをリサーチする - バイセル Tech Blog
    misshiki
    misshiki 2024/12/20
    “ジョブエクスプローラを用いることでBigQueryのボトルネックを容易にリサーチできるようになった”
  • BigQueryエミュレータを使ったETLのインテグレーションテスト - MonotaRO Tech Blog

    TL;DR BigQuery Emulator と fake-gcs-server を組み合わせることでbqコマンドでCSVファイルを読み込んでETLのインテグレーションテストができた。 はじめに こんにちは。先日こちらの記事を書いたCTO-Officeの藤です。そこでは書ききれなかったETLについて書いておきたいと思います。 ビッグデータを扱うETLのテストを行いたい場合に、DBからExtractするEの部分など、ユニットテストやモックでは担保できないところが出てきます。 そのようなインテグレーションテストに、OSSのBigQuery Emulatorを活用できる場合があります。 背景 モノタロウでは、マイクロサービスで実装したGoのロジックをApache Beam Go SDKでラップして、Cloud Dataflowで定期実行することで商品の出荷目安のデータを生成して様々なチャネル

    BigQueryエミュレータを使ったETLのインテグレーションテスト - MonotaRO Tech Blog
    misshiki
    misshiki 2024/12/19
    “BigQuery Emulator と fake-gcs-server を組み合わせることでbqコマンドでCSVファイルを読み込んでETLのインテグレーションテストができた。”
  • Google BigQueryからSnowflakeへ。バクラクのデータ基盤技術移管事例 - Findy Tools

    公開日 2024/12/10更新日 2024/12/10Google BigQueryからSnowflakeへ。バクラクのデータ基盤技術移管事例 はじめにLayerXでは、「バクラク」という企業のバックオフィス業務を効率化するクラウドサービスを提供しています。稟議、経費精算、法人カード、請求書受取、請求書発行といった経理業務に加え、勤怠管理といった人事領域(HRM)の業務を効率化するサービスも展開しています。最新のAI技術を活用し、お客様の業務が、より「ラク」になる環境の実現を目指しています。導入実績は10,000社を超え、多くのお客様に選んでいただいております。 バクラク | バックオフィスから全社の生産性を高める このようなサービスを支えるためには、ビジネスニーズに迅速に応えられる拡張性の高い効率的なデータ基盤が不可欠です。バクラクでは、サービスの成長と共に増大するデータ量や複雑化する

    Google BigQueryからSnowflakeへ。バクラクのデータ基盤技術移管事例 - Findy Tools
    misshiki
    misshiki 2024/12/10
    “この移行プロジェクトの紹介を通じて、バクラクがデータ基盤の主要技術をGoogle BigQueryからSnowflakeへ刷新した理由について詳しく述べます。”
  • データウェアハウスをRedshiftからSnowflakeに移行するために考えたこと(1) - Uzabase for Engineers

    この記事は NewsPicks Advent Calendar 2024 の6日目の記事です。 ソーシャル経済メディア「NewsPicks」の中村です。最近はデータ基盤の開発運用、データアナリストのサポート、LLM活用等をやっています。 現在、NewsPicksではデータウェアハウスとして長年利用してきたAmazon RedshiftからSnowflakeへの移行を進めています。まだ移行作業の途上ではありますが、完了の目処が立ったので、なぜデータ基盤の移行を行なっているのか、どのように移行計画を立てたか、実際に移行作業を進めてみてどうだったか等を紹介したいと思います。データ基盤を運用している方、データウェアハウスの比較検討をされている方などの参考になれば幸いです。 なぜデータウェアハウスを移行するのか Redshiftのパフォーマンスとコストの問題 まず、NewsPicksの従来のデータ基

    データウェアハウスをRedshiftからSnowflakeに移行するために考えたこと(1) - Uzabase for Engineers
    misshiki
    misshiki 2024/12/09
    “パフォーマンスとコスト管理の点では、Snowflakeがやや有利 生成AIと分析者体験の点では、BigQueryがやや有利”
  • Google、Gemini in BigQueryを正式公開!データ分析に革命が起きそう — 自然言語でデータ分析可能、更に分析用プロンプトをAIが提案

    8月29日、GoogleはGemini in BigQueryの複数の新機能を正式に提供開始した。 Gemini in BigQueryとは、Google Cloudのデータ分析プラットフォームであるBigQueryにAI機能を統合した新しいサービスであり、データ分析作業の効率を飛躍的に向上させる。これにより、ユーザーはAIを活用して複雑なデータセットの分析や重要な情報の抽出を、より簡単かつ迅速に行うことができる。 特に注目すべきは、自然言語での指示を通じてAIが適切なSQLクエリやPythonコードを生成する機能である。たとえば、ユーザーは次のように指示を出すことができる: 「このテーブルの各製品ごとの総売上を計算して。」 「pandasを使って、製品の売上と顧客レビュー数の相関を求めるPythonコードを書いて。」 「サブスクライバータイプ別に平均旅行時間を計算して。」 これらの指示を

    Google、Gemini in BigQueryを正式公開!データ分析に革命が起きそう — 自然言語でデータ分析可能、更に分析用プロンプトをAIが提案
    misshiki
    misshiki 2024/09/02
    “8月29日、GoogleはGemini in BigQueryの複数の新機能を正式に提供開始した。 Gemini in BigQueryとは、Google Cloudのデータ分析プラットフォームであるBigQueryにAI機能を統合した新しいサービスであり、データ分析作業の効率を飛躍的に
  • BigQueryの承認済みビューを利用した社内データ公開設計 - enechain Tech Blog

    はじめに 旧BigQuery構成と課題点 新GCP Project/BigQuery構成 承認済みビューの設定 結果 終わりに はじめに enechainのデータプラットフォームデスクで2年目エンジニアをしている菱沼です。 記事では、社内ユーザに対する閲覧権限をBigQueryの承認済みビューを用いて改善した例をご紹介します。 事業規模の拡大に伴い、各種データへのアクセス権限整備の重要性が増し、BigQuery上のデータも厳密な権限管理が求められるようになりました。 今回は、我々が抱えていたBigQueryアーキテクチャの権限管理上の課題と、その課題に対する取り組みについて具体的にご紹介します。 ぜひ最後までお付き合いください! 旧BigQuery構成と課題点 データプラットフォームデスクで構築しているデータ基盤の1つに、 外部データソースから取得したデータを収集・蓄積するためのETLパ

    BigQueryの承認済みビューを利用した社内データ公開設計 - enechain Tech Blog
    misshiki
    misshiki 2024/07/30
    “社内ユーザに対する閲覧権限をBigQueryの承認済みビューを用いて改善した例をご紹介”
  • BigQueryとGemini 1.5 Proによるラーメン店クチコミの定量分析 - G-gen Tech Blog

    G-gen の神谷です。記事では、Google Maps API から取得したラーメン店のクチコミデータに対する定量分析手法をご紹介します。 従来の BigQuery による感情分析の有用性を踏まえつつ、Gemini 1.5 Pro の導入によって可能となった、より柔軟なデータの構造化や特定タスクの実行方法を解説します。 分析の背景と目的 可視化イメージ 分析の流れとアーキテクチャ クチコミデータ取得と BigQuery への保存 API キーの取得 データ取得のサンプルコード クチコミ数の制限と緩和策 料金 感情分析とデータパイプライン Dataform の利点 Dataform を使った感情分析のパイプライン定義例 感情分析の結果解釈 ML.GENERATE_TEXT(Gemini 1.5 Pro) 関数を使用した高度な分析 ユースケースに応じた独自の評価観点によるクチコミの定量化

    BigQueryとGemini 1.5 Proによるラーメン店クチコミの定量分析 - G-gen Tech Blog
  • BigQuery縦持ちデータを動的に横持ちデータにする方法 - ドワンゴ教育サービス開発者ブログ

    はじめに ドワンゴ教育事業でデータアナリストとして働いている小林です。 一般的にデータアナリストはデータの収集・分析を通して組織の意思決定を支援する役割を期待されることが多く、ドワンゴ教育事業における私のミッションもKPI動向の可視化やダッシュボード / レポートの作成・提供を通してデータドリブンな組織に貢献するところにあります。 私たち教育事業には施策を実行する企画者やビジネス上の意思決定者だけでなく、サービスを活用して教育の現場に立っている方々、サービスに展開している教材を制作しているチームなど多様な方面からデータ収集・分析の需要があります。それだけにやりがいも大きく楽しい日々を過ごしています。 課題について(導入に代えて) クエリを書いて、結果を分析して、資料にまとめて、展開して、共有して・・・みたいな仕事をしているとSQLで抽出した縦持ちのデータを横持ちに作り変えたいことがよくあり

    BigQuery縦持ちデータを動的に横持ちデータにする方法 - ドワンゴ教育サービス開発者ブログ
    misshiki
    misshiki 2024/07/17
    “以上までの内容をチームの同僚に見てもらったところ「PIVOTは動的に使えますよ、EXECUTE IMMEDIATE FORMATを利用して!」と教えてもらい、膝から崩れ落ちました。”
  • BigQueryとLookerStudioのニッチな落とし穴についてまとめてみた - Timee Product Team Blog

    こんにちは、タイミーでデータアナリストをしているyuzukaです。 主にプロダクトの分析に携わっています。 ビジネス職からデータアナリストに転向して約1年経った私が、1年前の自分に教えてあげたい、BigQueryや LookerStudioに関する落とし穴を、いくつか挙げてみようと思います。 はじめに 弊社では、分析環境として BigQueryを採用しています。LookerStudioを使って、 BigQueryのデータを参照してダッシュボードを作ることもよくあります。 BigQueryの SQLを使った分析を進めていく中で、想定と異なるデータが出てきてしまい、原因を特定するのに苦労し、無駄な時間を費やしてしまった経験が何度もあります(実際には、そんな過程もきっと無駄ではないと信じたい)。 こちらのブログを読んでいただいたみなさまには、同じ苦労を味わっていただきたくないので、私が今までにハ

    BigQueryとLookerStudioのニッチな落とし穴についてまとめてみた - Timee Product Team Blog
    misshiki
    misshiki 2024/07/01
    “同じ苦労を味わっていただきたくないので、私が今までにハマってきた落とし穴をいくつか紹介します。 1. BigQueryで使える一部の記法は、LookerStudioでサポートされておらず、接続エラーになる”