タグ

*programとworkflowに関するsh19910711のブックマーク (175)

  • エージェントの継続的改善のためのメトリクス再考

    生成 AI オブザーバビリティのはじめの一歩での登壇資料です https://jaguer-o11y-sre.connpass.com/event/364247/

    エージェントの継続的改善のためのメトリクス再考
    sh19910711
    sh19910711 2025/10/18
    "理想的な入出力を小規模に定め、徐々に拡大していきながら、解決すべき課題やサポートすべきユースケースについて理解を深める / 未知のユースケースの検出"
  • DagsterとオニオンアーキテクチャでETLパイプラインを構築する実践ガイド - Qiita

    はじめに 記事では、Dagsterとオニオンアーキテクチャを組み合わせたETLパイプラインの実装について解説します。 Wikipedia APIからデータを取得してCSVに保存する具体例を通じて、保守性と拡張性を兼ね備えたデータパイプラインの構築方法を紹介します。 完全なコード例は以下のリポジトリで公開しています: https://github.com/nokoxxx1212/dagster-onion-example オニオンアーキテクチャとは 概要 オニオンアーキテクチャは、ソフトウェアの関心事を層で分離し、内側の層が外側の層に依存しないよう設計するアーキテクチャパターンです。 主要な4つの層から構成されます Domain層: ビジネスロジック・データモデル・抽象インターフェース Infrastructure層: 外部システム(API、データベース、ファイルシステム)の具体実装 Us

    DagsterとオニオンアーキテクチャでETLパイプラインを構築する実践ガイド - Qiita
    sh19910711
    sh19910711 2025/09/28
    "依存関係はDomain層を中心とした同心円状 / 「UIだけ見れば8割わかる」アプローチにより、データパイプラインの理解・保守・運用が大幅に改善"
  • Claude Code Actions を活用した継続的なリサーチシステム構築の試み | BLOG - DeNA Engineering

    こんにちは!品質管理部 SWET 第二グループ の志田です。普段は QA(Quality Assurance)業務の効率化に取り組んでいます。 先日、mizchi さんを講師に迎えた Claude Code のハンズオンセッションに参加しました。現在、そこで得た知識を実務で活かすために、様々な試行錯誤を行っています。 記事では、Claude Code(または Gemini CLI)と GitHub Actions を組み合わせ、リサーチタスクの自動化を行う取り組みについてご紹介します。特に、過去の調査結果をナレッジとして蓄積し、それを活用して次の調査を自動的に実施することで、リサーチそのものを継続的に進化させていく実験的な取り組みについて、具体的な方法や得られた知見をお伝えします。 Deep Research の課題 AI を使ったリサーチと聞くと、多くの方が「Deep Research

    Claude Code Actions を活用した継続的なリサーチシステム構築の試み | BLOG - DeNA Engineering
    sh19910711
    sh19910711 2025/09/28
    "調査結果を GitHub のリポジトリに永続的に保存 / 過去のデータを参照できるようになるため、以前の調査結果との比較分析や新規情報の抽出が容易"
  • 自然言語で CI/CD パイプラインを定義する Agentic Workflows

    Agentic Workflows は 2025 年 9 月現在研究目的のデモンストレーションとして提供されており、大幅に機能が変更される可能性があります。番環境での使用は推奨されません。また自己責任で使用してください。 Agentic Workflows は自然言語で CI/CD パイプラインを定義できるツールとして GitHub Next が開発しています。Agentic Workflows は「あらゆるプラットフォームにおけるあらゆるソフトウェアコラボレーションをサポートする自動化された AI」を指す「継続的 AI(Continuous AI)」を実現します。継続的 AI はドキュメントの作成・コードの改善・Issue のトリアージといった自動化可能で繰り返し行われるタスクを支援することを目指しています。GitHub はこの継続的 AI を研究している段階であり、Agentic W

    自然言語で CI/CD パイプラインを定義する Agentic Workflows
    sh19910711
    sh19910711 2025/09/27
    "自然言語で定義されたワークフローは GitHub CLI の拡張機能として提供される gh aw コマンドでコンパイルして実行 / 実行可能なステップがコードとして生成される"
  • プロンプトのデプロイ後の品質管理:LLM運用を便利にするLangfuseのトレース機能

    LLMの出力結果を番デプロイした後に把握できてますか? LLMを使うと、さまざまなタスクで60点から70点程度の出力をシュッと出力してくれます。 しかし、アプリケーションで実施するタスクのテストデータを十分に用意できず、あまり良くないと分かっていながらも、やむを得ず手元で試行錯誤したプロンプトを勢いでデプロイしてしまうことも少なくないのではないでしょうか。 それでも、ユーザーの想定外の入力などにも一定レベルの出力ができているかは確認しておきたいですよね。 そんなときにLangfuseがとても便利だったので、今回は運用のイメージと共にコアとなるトレース機能を紹介します。 Langfuseの運用イメージ サービス上で実施された出力をトレースとして確認。 テストケースとして良さそうサンプルがあればそれを収集。 実験を実行してLLM-as-a-Jdugeで評価。 改善サイクルを回すといったフロー

    プロンプトのデプロイ後の品質管理:LLM運用を便利にするLangfuseのトレース機能
    sh19910711
    sh19910711 2025/09/20
    "監視したい関数にデコレーターをつけて、LnagChainであればRunnableにLangfuseのCallbackを追加 / トレースごとにURLがあるのでサッと関係者に出力結果のURLを共有して報告できるのも便利"
  • ADK 1.14.0 で追加された Agent、Runnerに続く新たな概念 App

    こんにちは、サントリーこと大橋です。 日(2025/09/11)、Agent Development Kit(以降ADK)のバージョン 1.14.0がリリースされました。 READMEにも記載がありますが、今回のリリースから、リリースサイクルが毎週からほぼ隔週に変更されました。 今回のリリースで追加された主な機能は以下です。 [Core] Upgrade ADK runner to use App in addition to root_agent (4df79dd) [Tools] Add a tool confirmation flow that can guard tool execution with explicit confirmation and custom input (a17bcbb) [Tools] Add GkeCodeExecutor for sandboxed

    ADK 1.14.0 で追加された Agent、Runnerに続く新たな概念 App
    sh19910711
    sh19910711 2025/09/20
    "ADK: 今回のリリースから、リリースサイクルが毎週からほぼ隔週に変更 / App: Agent とそのAgentが必要とする Plugin 群を一つにまとめるためのコンテナクラス + Agentとその周辺機能を一つのユニットとして扱える"
  • Plan-and-Execute × Elasticsearch × Ollama で“惜しい検索”を卒業する

    はじめに 「社内ドキュメントを探しても欲しい情報が見つからない...」 「全文検索は厳密な単語には強いけど、言い換えた表現が拾えない」 「ベクトル検索は幅広く拾うけど、ノイズが多すぎる」 こんな "惜しい検索体験" に悩んだことはありませんか? この記事では、Plan-and-Execute型AIエージェント と Elasticsearch(全文検索)、Qdrant(ベクトル検索) を組み合わせて、この問題を解決する検索システムの実装方法を紹介します。 特徴的なのは、Ollama(ローカルLLM) を使用することで OpenAIなしでも動作 する点です。プライバシーが重要な社内システムでも安心して使えます。 🎯 この記事で作るもの 3つの検索モードを持つ、インテリジェントな検索システムを構築します: Keyword Search - Elasticsearch による高速な全文検索 Se

    Plan-and-Execute × Elasticsearch × Ollama で“惜しい検索”を卒業する
    sh19910711
    sh19910711 2025/09/16
    "Elasticsearch(全文検索)、Qdrant(ベクトル検索) を組み合わせ / まず Elasticsearch で規程名を検索 + 不足があれば Qdrant で補完 + 重複を除外して再評価 + 根拠の抜粋付きで最終回答を生成"
  • Eval-Centric AI: Agent 開発におけるベストプラクティスの探求

    Google Cloud Next Tokyo 2025 のLT資料です

    Eval-Centric AI: Agent 開発におけるベストプラクティスの探求
    sh19910711
    sh19910711 2025/09/15
    "リスクと効果を考慮し小さく始める / ユースケースを安全性と効果の2軸で分類 / 要件定義よりもプロトタイプを優先 + 手戻りを恐れるのではなくイテレーションを回す"
  • Claude Code GitHub Actionsにインラインでサジェストさせて以前のコメントを隠す

    こんにちは。ダイの大冒険エンジョイ勢のbun913と申します。 みなさんは Claude Code GitHub Actions を利用していますか? 例えばv1.0を利用する場合、以下のような記述でCIに Claude Code を簡単に組み込めて良いですよね。 name: Code Review on: pull_request: types: [opened, synchronize] jobs: review: runs-on: ubuntu-latest steps: - uses: anthropics/claude-code-action@v1 with: anthropic_api_key: ${{ secrets.ANTHROPIC_API_KEY }} prompt: "/review" claude_args: "--max-turns 5" ただデフォルトで動作させ

    Claude Code GitHub Actionsにインラインでサジェストさせて以前のコメントを隠す
    sh19910711
    sh19910711 2025/09/15
    "GitHub GraphQL API を利用して、以前のコメントを非表示 / 過去の Claude Code のコメントを取得してJSONとして出力し、重複コメントを避ける"
  • AWSで実現した大規模日本語VLM学習用データセット "MOMIJI" 構築パイプライン/buiding-momiji

    Data-Centric AI 勉強会での登壇資料です。

    AWSで実現した大規模日本語VLM学習用データセット "MOMIJI" 構築パイプライン/buiding-momiji
    sh19910711
    sh19910711 2025/09/12
    "Common Crawl全体をどう効率よくフィルタリングするか / 元となるデータセットがペタバイト級で取り回しづらい > Lambda + Step Functionsで構築 / Common Crawlに日本語は5%程度しか含まれない"
  • CRE × AI で「課題の真因」を解く — AIを活用した問い合わせの振り返りサイクル - 弁護士ドットコム株式会社 Creators’ blog

    こんにちは、クラウドサインで CRE(Customer Reliability Engineer)をしている藤谷です。 CRE は「Customer Reliability Engineering」の略で、お客様やビジネス部門で発生した課題をエンジニアリングで解決する役割を担います。 営業・カスタマーサクセス・エンジニアリングのハブとなり、技術支援からインシデント対応まで幅広く対応しています。 今回は、前回の記事「問い合わせの『なぜ』を AI と解く - クラウドサイン CREAI 活用事例」の続編として、問い合わせ対応後の振り返りの取り組みとそのAIの活用について、紹介します。 CREが問い合わせ対応後に必ず行う「振り返り」 CRE チームでは従来から「CRE DONE」という振り返りの仕組みを運用しています。一連の問い合わせ対応を振り返りながら、以下の点を検討します。 なぜこの問

    CRE × AI で「課題の真因」を解く — AIを活用した問い合わせの振り返りサイクル - 弁護士ドットコム株式会社 Creators’ blog
    sh19910711
    sh19910711 2025/09/07
    "「お客様は何に困っているのか」を整理した後「本当はどうしたかったのか」という背景や目的まで推察 / 「なぜそのバグが生まれたのか」「なぜお客様がその仕様を理解できなかったのか」まで考えてもらう"
  • Unityのビルドエラーを解析するAIエージェントの試み | QualiArtsエンジニアブログ

    はじめに 株式会社QualiArtsでUnityエンジニアをしている住田です。Unityプロジェクトに従事し、並行して「CA.unity」や「技術書典」といったサイバーエージェントの子会社を跨いだ横軸活動の牽引、ならびにQualiArtsの技術広報をつとめております。 Unity開発をしていると、ビルドエラーが日々発生しがちです。原因の特定には、大量のログから問題箇所を見つけ出し、その背景を理解する作業が必要になります。しかし、これは時間のかかる作業で、なおかつ特定のエンジニアしか効率的に行えなかったりする、いわば属人化した作業になりがちです。 記事では、こうした課題を解決すべく、AIエージェントを活用してビルドエラーログを自動分析し、迅速な問題特定と解決策提案を行うシステム「build-log-analyzer」の開発と運用について紹介します。 ビルドエラーによる日々の開発課題 Un

    Unityのビルドエラーを解析するAIエージェントの試み | QualiArtsエンジニアブログ
    sh19910711
    sh19910711 2025/09/07
    "Gemini 2.5 Flash / 安価ながらも、ビルドログのエラー解析において十分な精度を発揮 / ビルドエラーという汎用的な事例で試したのも良かった"
  • prefect の work-pool / worker について理解する

    はじめに prefect の構成要素のうち、work-pool / worker について理解します。 work-pool work-pool は、prefect の work flow を適切なインフラにデプロイするための架け橋となるコンポーネントです。work-pool には様々なタイプを指定できますが、例えば docker のタイプを持つ work-pool を作成した場合、その work-pool から実行された work flow は後述する worker を通して docker コンテナのインフラで起動することになります。 他にも、単一のプロセスとして work flow を起動するタイプの work-pool であったり、kubernetes 上で work flow を起動するタイプの work-pool であったり、色々な種類の work-pool が用意されています。

    prefect の work-pool / worker について理解する
    sh19910711
    sh19910711 2025/09/07
    2024 / "work-pool は、prefect の work flow を適切なインフラにデプロイするための架け橋 / workerは、指定の work-pool を polling し、その work-pool から実行された work flow を対応するインフラ上にデプロイする"
  • Rustベースのdbt fusion engineを使ってみた! | フューチャー技術ブログ

    夏の自由研究2025ブログ連載の3日目です。 こんにちは!Energy Transformation Groupの大前七奈です。 dbtは、データエンジニアリングの現場に革新をもたらしましたが、プロジェクトが大規模になるにつれて、いくつかの課題も浮き彫りになってきました。 記事では、その課題を解決するために開発された次世代のエンジン「dbt Fusion Engine」について、実際に試してみた所感を交えながら、その凄さや移行方法、そして今後の展望について詳しくお話ししたいと思います。 改めてdbtすごいところdbt(Data Build Tool)は、データエンジニアリング界隈に革命をもたらしたELT(Extract, Load, Transform)ツールです。Gitバージョン管理システムで、SQLでデータ変換を管理でき、さらにデータ変換のステップを複数の小さなSQLファイルに分割し

    Rustベースのdbt fusion engineを使ってみた! | フューチャー技術ブログ
    sh19910711
    sh19910711 2025/09/07
    "Pythonベースのdbt-coreと異なり、SQLをデータウェアハウスに送信する前に、dbt Fusion EngineがSQLをローカルでパースし、コードを分析・検証"
  • LLMエージェント時代に適応した開発フロー

    実例から学ぶ!モバイルアプリ開発における「AIの使いどころ」 https://findy.connpass.com/event/363471/

    LLMエージェント時代に適応した開発フロー
    sh19910711
    sh19910711 2025/09/03
    "爆速にならないことをどうするか考え続ける必要がある / やるべきことを真面目にコツコツやることがすべての明暗を分ける"
  • Cloudflare WorkersのCron Triggersでリリース当番通知botを作った話 - ベースマキナ エンジニアブログ

    こんにちは、syumaiです! ベースマキナでは、現在Cloudflare WorkersのCron Triggersを活用したリリース当番通知botを社内で運用しています。このbotは、リリース対象日の朝にリリース担当メンバーにメンションを行います。実装はTypeScriptで行われています。 今回の記事では、 なぜリリース当番通知botを作ることにしたのか なぜCloudflare Workersを使ったのか Cloudflare Workersによる定期実行Workerの実装例 などについて紹介させていただきます。 なぜリリース当番通知botを作ることにしたのか もともと、ベースマキナでは、リリース担当のメンバーを特に決めていませんでした。リリース担当が決まっていないと、自然と「直近機能開発を行ったメンバー」がリリースを自主的に行うようになります。すると、タスクの持ち具合によって、設

    Cloudflare WorkersのCron Triggersでリリース当番通知botを作った話 - ベースマキナ エンジニアブログ
    sh19910711
    sh19910711 2025/09/01
    2024 / "Cloudflare Workersは、実は「定期的にJavaScriptを実行する基盤」として非常に手軽 / メールの受信をTriggerとしてWorkerを起動するEmail Triggers / jsx-slack: Slackのメッセージを表現するBlockをJSXで簡単に書く"
  • Strands AgentsでAWS調査エージェントをサクッと構築してみた

    sh19910711
    sh19910711 2025/09/01
    "use_awsを使うAWS操作エージェントと、MCPサーバーを利用するAWSドキュメント調査エージェントのマルチエージェント / 子エージェントをツールのように呼び出す"
  • Strands Agents SDKのAgent Graphへ入門してみよう!

    sh19910711
    sh19910711 2025/09/01
    "後続のNodeが無いとなったら自動で処理が停止する + LangGraphはENDというノードが必要 / 常にFalseを返す条件付きエッジを作成すれば強制終了できる"
  • GitHub Copilot Agent × Confluenceで設計書からシーケンス図を簡単に生成する - ASKUL Engineering BLOG

    こんにちは。LOHACOのバックエンド開発部のさわだです。 新規開発するバッチの設計書を作成することになったのですが、設計書内のシーケンス図の作成にGitHub Copilot Agentを使用してみたところ作成にかかる時間を短縮できました。 今回は、GitHub Copilot Agentをシーケンス図の生成に活用する方法を紹介します。 背景 設計書はConfluence内に作成しており、今まではConfluenceのマクロにある作図ツールを使用してシーケンス図を作成していました。 この作図ツールは図形や矢印をGUI上で配置できるので直感的に操作可能ですが、手動で配置するのは手間と時間がかなりかかっていました。また、AIエージェント(以下、Agent)で設計書から実装のコードを生成する際に作図ツールで作成したシーケンス図をAgentは読み取ることができないため、シーケンス図もコードベース

    GitHub Copilot Agent × Confluenceで設計書からシーケンス図を簡単に生成する - ASKUL Engineering BLOG
    sh19910711
    sh19910711 2025/08/20
    "GUIの作図ツールを使用していた頃より体感半分ぐらいの時間 / シーケンス図は人間が実装内容を視覚的に理解しやすいものという認識でしたが、AIコーディングの精度向上にも応用できる"
  • AIエージェントのためのコンテキストエンジニアリング:Manus構築から得た教訓

    Manusプロジェクトの最初の段階で、私のチームと私は重要な決断に直面しました:オープンソースの基盤を使用してエンドツーエンドのエージェントモデルをトレーニングするべきか、それとも最先端モデルの文脈内学習能力の上にエージェントを構築するべきか? NLPの最初の10年間、私たちはその選択肢を持つ贅沢はありませんでした。BERTの遠い日々(はい、それは7年前です)では、モデルは新しいタスクに移行する前に、ファインチューニング—そして評価—する必要がありました。そのプロセスは、今日のLLMと比較してモデルが小さかったにもかかわらず、イテレーションごとに数週間かかることがよくありました。特にプレPMFの段階では、このような遅いフィードバックループは致命的な欠点です。これは私の前のスタートアップからの苦い教訓でした。そこではオープン情報抽出と意味検索のためにゼロからモデルをトレーニングしていました。

    sh19910711
    sh19910711 2025/08/16
    "間違ったものも残しておく / 言語モデルは幻覚を見、環境はエラーを返し、外部ツールは誤動作 / 失敗を消去すると証拠が削除され ~ 証拠がなければ、モデルは適応できません"