タグ

*programとpromptに関するsh19910711のブックマーク (718)

  • GPT4相当のLLMをローカルで自由に学習させたい

    1. 概要 記事では、Meta の LLM である Llama3 70B モデル を RTX3090(24GB)を搭載した計算機二台で分散学習する手法について紹介します。 kubernetes で作成した オンプレミスの GPU クラスタ(RTX3090×2)にて、FSDP_QLoRa という手法を活用した分散学習を行うことで、24GB GPU を搭載した PC 二台という比較的実現しやすい環境での学習を実現します。 2. 前提 対象者 LLM をトレーニングしたいが、API(OpenAI など)経由だと簡単なファインチューニングしかできない、クラウドサービス上での学習はコスト的に厳しい、けど 24GB GPU を搭載した PC 二台くらいは用意できるという方。(研究室の学生はこういう方多いんじゃないでしょうか?知らんけど) FSDP_QLoRa について FSDP_QLoRa とは、Q

    GPT4相当のLLMをローカルで自由に学習させたい
    sh19910711
    sh19910711 2025/10/25
    2024 / "FSDP_QLoRa では、QLoRA で極限までメモリ使用量を減らした後に、モデルを分割するというプロセスによって、低コストの計算資源で LLM を学習 / ネットワークがボトルネックになってかなり学習速度が落ちた"
  • AIと開発するときにも初期から始めた方が良いこと - Flavor Wheel Engineering

    開発時に標準的に使われるコマンドを整備する Next.jsプロジェクトであれば pnpm run typecheck pnpm run build などがあることは当然だろうから、それらはpackage.jsonに書いて実行可能な状態にしておくと良い。AIは既存のコードを学習しているので、これらのコマンドを変換結果の確認に使おうとする。その時に独自のコマンド名にしていたり、コマンドを準備していないと実行に失敗して無駄な試行錯誤の時間を取られてしまう。 また、AIがコードを編集したとしてもレビューをするのは人間なので差分を見やすい状態に維持しておきたい。AIは大量にコードを書くし、Vibe Codingだと差分が大きくなりがち。ただでさえ差分が多いと量的にレビューが大変なのに加えてフォーマットのような質的でない差分が含まれているとよりレビューが辛くなる。全部必要だが個人的な優先順は、ビ

    AIと開発するときにも初期から始めた方が良いこと - Flavor Wheel Engineering
    sh19910711
    sh19910711 2025/10/25
    "筋がよくない実装を油断していると混ぜてくるので、人間側もレビューで防いだり早期に軌道修正できるように学習が必要 / 公式ドキュメントなど信頼できる情報源を自分で読みにいく方が確実"
  • ライブカメラに映った落雷をAmazon Novaで検出する試み

    こんにちは。ウェザーニューズ モバイル・インターネット事業部の hoka です。 ウェザーニューズにはウェザーニュース アプリユーザーのみなさまにご協力いただき設置しているライブカメラが日国内に 2000 ヵ所以上あります。ライブカメラの映像を動画理解モデルである Amazon Nova を使って解析し、落雷の検出を試してみました。 録画・検出例 落雷・稲がはっきり映っていることがわかります。 落雷の検出例(茨城県 土浦市) 落雷の検出例(石川県 珠洲市) 落雷検出のアプローチ 3 つのステップに分けて処理しています 落雷が発生した地点周辺のライブカメラを録画 映像内で輝度がスパイクした箇所の前後を切り出し Amazon Nova で落雷の有無を解析 Step 1: 落雷が発生した地点周辺のライブカメラを録画 落雷が発生した地点周辺のライブカメラをピックアップして録画しました。落雷の情

    ライブカメラに映った落雷をAmazon Novaで検出する試み
    sh19910711
    sh19910711 2025/10/25
    "ffprobe を使ってフレームごとの輝度を取得し、フレーム間の輝度差分が 99.5 パーセンタイルを超えており、MAD(Median Absolute Deviation)が一定値を超えている箇所をスパイクとして検出"
  • Foundation Models Frameworkで絵文字を推薦させる仕組み

    azooKey v3.0.1からは「えもじ」と入力すると文脈に合わせた絵文字推薦が表示されるようになりました。 この機能はiOS 26で導入された「Foundation Models Framework」を利用して作られています。このフレームワークではApple Intelligenceでも用いられているオンデバイスのLLMを利用することができるため、アプリに簡単に知的な振る舞いを導入することができます。したがって、絵文字推薦程度は余裕のはずです。 この記事ではFoundation Models Frameworkで絵文字を推薦させる仕組みと、意外に難しかったポイントを紹介します。 基的な実装 Foundation Models FrameworkはFoundationModelsをインポートすることで利用できます。利用にはiOS 26以上が必要なので、それ以前のiOSをサポートする場合

    Foundation Models Frameworkで絵文字を推薦させる仕組み
    sh19910711
    sh19910711 2025/10/25
    "「えもじ」と入力すると文脈に合わせた絵文字推薦 / iOS 26で導入された「Foundation Models Framework」を利用 / Apple Intelligenceでも用いられているオンデバイスのLLMを利用することができる"
  • PLaMoをベースにしたテキスト埋め込みモデルの開発 - Preferred Networks Research & Development

    記事は、2024年夏季インターンシッププログラムに参加された九門涼真さんによる寄稿です。今回はPLaMoをベースにしたテキスト埋め込みモデルの開発に取り組んでいただきました。PFN/PFEではこのようなLLM性能改善のための研究開発を進めています。取り組みで得られた知見・成果は今後PLaMoに取り入れていく予定です。 2024年度夏季インターンシップに参加した、東京大学大学院情報理工学系研究科修士一年の九門涼真と申します。現在は谷中研究室で自然言語処理に関する研究をしています。 今回のインターンでは、大規模言語モデル (LLM) を用いたテキスト埋め込みモデルについて研究と開発を行いました。LLMの持つ特徴を生かし、質の高いテキスト埋め込みを生成することを目指しました。 背景 テキスト埋め込みは、テキスト分類、文書検索など自然言語に関わる様々なタスクで用いられており、必要不可欠なものと

    PLaMoをベースにしたテキスト埋め込みモデルの開発 - Preferred Networks Research & Development
    sh19910711
    sh19910711 2025/10/18
    2024 / "NV-Embed: LLM2Vecと同様に双方向の注意機構への変換 + 二段階の教師あり対照学習 / latent注意層を導入し、既存の手法の弱点である重要なフレーズの情報の損失や最終トークンに近い埋め込みへの依存を改善"
  • Vibe-CodingにADRを導入して開発体験を改善する試み | Daiki Matsui

    sh19910711
    sh19910711 2025/10/18
    "書いてみて・試してみてわかることがある / Proposedというステータスを用意したことで、いきなり実装に進まず、実装方針を検討する段階を踏める"
  • エージェントの継続的改善のためのメトリクス再考

    生成 AI オブザーバビリティのはじめの一歩での登壇資料です https://jaguer-o11y-sre.connpass.com/event/364247/

    エージェントの継続的改善のためのメトリクス再考
    sh19910711
    sh19910711 2025/10/18
    "理想的な入出力を小規模に定め、徐々に拡大していきながら、解決すべき課題やサポートすべきユースケースについて理解を深める / 未知のユースケースの検出"
  • Evolutionary Optimization of Model Merging Recipesを理解する(論文編)

    Evolutionary Optimization of Model Merging Recipesについて 先日、sakana.aiが発表した論文になっています。大規模言語モデル(LLM)のパラメータと下流タスクでの性能の関係は、Task Arithmeticなどで研究されてきました。そこから、複数のLLMのレイヤーをパラメータを混ぜて一つにする方法が提案されてきました。この論文では、パラメータの混ぜ方だけでなく、レイヤーのマッチングまで一化して最適化する手法を提案しています。 個人的に、この手法の発展が楽しみです。行く末は、ビッグテックが要するクローズドな大きなモデル(GPT4, Geminiなど)を、オープンソースの複数のモデルが超えていく未来が来るかもしれません(スイミーのように)。 この論文が扱う問題の理解 この論文が解く問題は、モデルの合体(model merging)の最適

    Evolutionary Optimization of Model Merging Recipesを理解する(論文編)
    sh19910711
    sh19910711 2025/10/06
    2024 / "Task Arithmetic: パラメータと下流タスクでの性能の関係 / 学習で使われたデータの違いから、モデルAのレイヤーの出力を、モデルBのレイヤーへ入力すると分布違いから、最終的な生成結果がおかしくなってしまう"
  • 超簡単!OpenSearch MCPでClaude Codeの検索性を拡張する | 豆蔵デベロッパーサイト

    はじめに # この記事は夏のリレー連載2025 2日目の記事です。 ビジネスソリューション事業部の塚野です。 ここ数か月で爆発的に普及しているClaude Codeですが、ようやく導入しましたところそのすごさに無事ぶったまげました。 Claude CodeをはじめとするAgentic AIは、指定したファイルやフォルダを「コンテキスト」に含めて管理します。 コンテキストとは、いわばAgentic AIの「認知範囲」であり、ユーザーからの入力や会話、タスクの履歴、さらに読み込ませたファイルやAPIから取得した情報などが含まれます。これにより、Agentic AIプロジェクトに特化した回答を作成し、その内容に基づいてタスクを実行することができます。 フォルダやファイルのパスを指定すれば、それらを直接コンテキストに取り込むことも可能です。しかし、ファイル数が多かったりサイズが大きかったり、ある

    超簡単!OpenSearch MCPでClaude Codeの検索性を拡張する | 豆蔵デベロッパーサイト
    sh19910711
    sh19910711 2025/10/05
    "FESSを利用すればGitHubのリポジトリをはじめ様々な場所からのクロールも簡単に設定でき、FESS自体全文検索サービスとしても利用可能"
  • Gemini CLI extensions for BigQuery を利用してGemini CLIから自然言語でBigQueryに解析依頼

    こんにちは、JetBrainsのJunieが値上がりして、Gemini CLIがメインになっているサントリーこと大橋です。 昨日(2025/09/24)、Gemini CLIの機能を拡張する新しいツール「Gemini CLI extensions for BigQuery」がリリースされました。 面白そうなので、この記事では、Gemini CLI extensions for BigQueryの導入方法と、自然言語を使ってBigQueryのデータを解析する具体的な使用法について解説していきます。 課題: 誰もがSQLを書けるわけではない データドリブンな意思決定が重要視される現代において、BigQueryのようなデータウェアハウスに蓄積された膨大なデータを活用することは、ビジネス成長の鍵を握ります。しかし、そのデータを引き出すためには、多くの場合SQLの知識が不可欠です。 SQLは強力な言

    Gemini CLI extensions for BigQuery を利用してGemini CLIから自然言語でBigQueryに解析依頼
    sh19910711
    sh19910711 2025/10/05
    "SQLは強力な言語ですが、その習得には専門的な学習が必要 / Gemini CLIに、BigQueryとの対話能力を付与する拡張機能で、Gemini CLI Extensions の仕組みを利用して提供"
  • メインメモリーが256GBになったんでPrimoCacheを再設定して主に生成AIモデルの転送速度を高速化する - NEXTAltair's diary

    大量に画像生成モデルが溜め込んでストレージを圧迫するが HDDに保存していると読み込みが遅いからPrimoCacheを使って NVMe ロード速度を手に入れる PrimoCacheは設定項目は数が多くて日語の情報がないんでメモ 「Stable Diffusionのモデル保管」 「動画の録画・エンコード」 「動画ファイルのアーカイブ」 L1キャッシュとL2キャッシュ L1キャッシュ (RAMキャッシュ): 大量に用意したメインメモリー L2キャッシュ (SSDキャッシュ): L1キャッシュから溢れたデータをX670EにいっぱいさせるM.2のSSDに保存 L1の領域はキャッシュタスクごとに領域が予約される L2はキャッシュ用としてフォーマットしたストレージなら複数のキャッシュ設定で同じものを指定できるが分けたほうが無難かも 基の設定項目 キャッシュタスクを作成する際の主要設定項目の意味と役

    メインメモリーが256GBになったんでPrimoCacheを再設定して主に生成AIモデルの転送速度を高速化する - NEXTAltair's diary
    sh19910711
    sh19910711 2025/10/05
    "書き込み処理を一旦メモリ上で完了させ 後からディスクに書き込む / キャッシュ化がうまく動くと9モデルの切替が1,000秒から22秒に大幅短縮"
  • llama.cpp + OpenCLでAdreno GPUを活用したLLM推論をする - Qiita

    Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? 何をするか Qualcomm Snapdragon 8 Gen 1, 2, 3 / Eliteを搭載したAndroid端末上で、OpenCLバックエンドを使用したllama.cppを実行する。ちなみに期待する程速くないどころか、多分なにかしらのボトルネックが生じておりCPU推論より遅いです。 自分の𝕏より 前提 Android端末やWindows (Arm64)で広く使われているQualcomm Snapdragon SoCには、AdrenoというブランドのGPUが搭載されている。 llama.cppがOpenCLをサポートしたことに

    llama.cpp + OpenCLでAdreno GPUを活用したLLM推論をする - Qiita
    sh19910711
    sh19910711 2025/10/05
    "llama.cppがOpenCLをサポートしたことにより、Adreno GPUのOpenCLバックエンドを活用したLLM推論が出来るようになっている"
  • 位置インデックス情報を操作して LLM に長文と錯覚させたらどうなるか? - ABEJA Tech Blog

    ABEJAでデータサイエンティストをしている藤原です。 今回も LLM のロングコンテキスト言語処理(Long-context language modeling; LCLM)に関連するブログになります。前回のブログはこちらです。 様々なコンテキスト長における LLM の Self-Attention の Query と Key の分析 - ABEJA Tech Blog 近年の LLM ではオープン・クローズド問わずより長大なコンテキストを正確に扱えるモデルが増えてきています。このようにロングコンテキストLLMが増えてくると、次はどのようにしてモデルのLCLM性能をどう評価すべきかが課題になります。しかしながら、たとえばモデルの生成結果を実際に自分で読んで確かめようと思っても、128kトークンもある入出力のテキストに目を通すのはかなり時間がかかってしまいます。 そこで今回は LCLM 評

    位置インデックス情報を操作して LLM に長文と錯覚させたらどうなるか? - ABEJA Tech Blog
    sh19910711
    sh19910711 2025/10/05
    "LCLM 評価: 長大な入力を正確に処理する能力 + 長大な出力を一貫して生成する能力 / PoSE: 位置インデックスの値のリストにスキップを加えて「遠い位置関係を擬似的に体験させる」ことを目的"
  • フルスクラッチ VLM “Viola” の歩み - Sansan Tech Blog

    はじめに こんにちは、研究開発部の石井です。 この記事では、弊社が文書画像からの高精度な情報抽出を目指し、フルスクラッチで開発した視覚言語モデル(Vision Language Model) “Viola” の歩みを共有します。 開発に至った背景から、技術選定の試行錯誤、実用化までに直面した技術・ビジネス両面の課題とそれを乗り越えたプロセス、現在の成果と今後の展望までをお伝えします。 VLM をビジネス課題に適用しようとしている方々にとって、何らかのヒントとなれば幸いです。 Viola プロジェクトの始まり 近年、ChatGPT の登場を皮切りに視覚言語モデル(VLM)の研究が急速に発展し、大きな注目を集めています。特に画像内の文字認識能力が向上し、文字認識の学習に特化したモデルの認識精度に匹敵する事例が報告されるようになりました。 例えば InstructBLIP [Dai et al.

    フルスクラッチ VLM “Viola” の歩み - Sansan Tech Blog
    sh19910711
    sh19910711 2025/10/05
    "InstructBLIP: OCR-VQA データセット において OCR に特化した既存モデルを上回る / 高解像度な文書画像をインターネットから大量に収集することは難しい"
  • ボイスメモ × AI で登壇アウトラインを効率化した話

    はじめに こんにちは!QA エンジニアの @Daishu です。 記事では、ボイスメモ × AI で登壇アウトラインを効率化した Tips を紹介します。 きっかけ 登壇用のスライドを作成するまでの流れって、色々あると思います。私は実際に発声して独り言を呟きながら、アウトラインを組み立てるのが好きです。例えば、お風呂とか運転中に一人ラジオ感覚で喋りながら「お、いいじゃん」となった話や表現があれば、後でメモしています。 抱えていた課題 ただ、この方法には課題がありました。 一人で盛り上がったはずのメモも、後で見返すと「あれ?」となることがあります。断片的なメモは話の前後関係や流れを再現できませんし、その場の勢いで出てきた表現やアイデアを書きこぼしているのだと思います。 解決策:ボイスメモ × AI 結論からお伝えすると、独り言をそのまま録音して、AI に整理してもらうことで効率化しました。

    ボイスメモ × AI で登壇アウトラインを効率化した話
    sh19910711
    sh19910711 2025/10/03
    "ブレスト的に思いついたまま話します。「えー」「あのー」といったワードや、言い回しなど細かい部分は気にしなくて OK / 実際に声に出してアウトラインを作ることが、そのまま発表の練習になり ~ "
  • WASMコンポーネントを作成しMCPサーバから呼び出してみる

    TL;DR 以下の構成でMCPサーバとしてWassetteを活用し、WASMコンポーネントをGithub Copilotから使ってみます。 呼び出すWASMコンポーネントも作ってみます。 Wassette とは? WASM × MCP がもたらす強力なセキュリティ Wassetteは、WebAssembly (Wasm) を活用し、信頼できないツールに信頼できる実行環境を提供する、オープンソースのMCPサーバです。 WebAssemblyランタイムを組み込み、きめ細かなセキュリティポリシーを適用することで、Wassetteはホストシステムに悪影響を与えることなく、サードパーティ製のMCPツールを安全に実行できます。 生殺与奪の権をAgentに握らせるな! 事前準備 すでにインストールされていたらスキップで大丈夫です。 rustup target add wasm32-wasip1 carg

    WASMコンポーネントを作成しMCPサーバから呼び出してみる
    sh19910711
    sh19910711 2025/10/03
    "Wassette: WebAssemblyランタイムを組み込み、きめ細かなセキュリティポリシーを適用 + ホストシステムに悪影響を与えることなく、サードパーティ製のMCPツールを安全に実行"
  • BigQuery MLを用いたフリーテキストのカテゴリ分類 - レバレジーズ データAIブログ

    はじめに こんにちは! データエンジニアの森下です。今回はBigQuery MLからGeminiを使用したフリーテキストの分類についてお話しようと思います。BigQuery ML を業務で使うのは初めてでしたが、思ったより簡単に SQL から LLM を呼び出すことができ、業務への応用がしやすくなったと感じています。 BigQueryMLの概要 BigQuery MLは、Google CloudのBigQuery上で、SQLを使って機械学習モデルを直接作成・実行できる機能です。 通常、機械学習モデルの構築にはPythonを使って実装することが多いですが、BigQuery MLはデータアナリストをはじめとするSQLユーザーが、その延長線上で高度な予測分析を手軽に行うことを可能にします。 最大の特長は、分析対象のデータをBigQueryから移動させる必要がない点です。これにより、開発プロセスが

    BigQuery MLを用いたフリーテキストのカテゴリ分類 - レバレジーズ データAIブログ
    sh19910711
    sh19910711 2025/09/28
    "実行ごとに出力されるカテゴリが異なる可能性 / 用途に合わせて、LLMの回答をどこまで揺らぎを持ったものにするかを決定する temperature のパラメーターを調整"
  • Claude Code Actions を活用した継続的なリサーチシステム構築の試み | BLOG - DeNA Engineering

    こんにちは!品質管理部 SWET 第二グループ の志田です。普段は QA(Quality Assurance)業務の効率化に取り組んでいます。 先日、mizchi さんを講師に迎えた Claude Code のハンズオンセッションに参加しました。現在、そこで得た知識を実務で活かすために、様々な試行錯誤を行っています。 記事では、Claude Code(または Gemini CLI)と GitHub Actions を組み合わせ、リサーチタスクの自動化を行う取り組みについてご紹介します。特に、過去の調査結果をナレッジとして蓄積し、それを活用して次の調査を自動的に実施することで、リサーチそのものを継続的に進化させていく実験的な取り組みについて、具体的な方法や得られた知見をお伝えします。 Deep Research の課題 AI を使ったリサーチと聞くと、多くの方が「Deep Research

    Claude Code Actions を活用した継続的なリサーチシステム構築の試み | BLOG - DeNA Engineering
    sh19910711
    sh19910711 2025/09/28
    "調査結果を GitHub のリポジトリに永続的に保存 / 過去のデータを参照できるようになるため、以前の調査結果との比較分析や新規情報の抽出が容易"
  • 1台のGPUのVRAMに収まらないLLMモデルを 2台で分散してみたら動いた話 | microAI

    Jetson Orin Nano NX 16G が2台手元にありますので、VRAMに収まらないモデルを分散推論させることで動かしてみます。

    1台のGPUのVRAMに収まらないLLMモデルを 2台で分散してみたら動いた話 | microAI
    sh19910711
    sh19910711 2025/09/27
    2024 / "Jetson Orin Nano NX 16G が2台 / Main Host 上にモデルを置いておき、それを、実行時に 各 rpc-server に分散"
  • 自然言語で CI/CD パイプラインを定義する Agentic Workflows

    Agentic Workflows は 2025 年 9 月現在研究目的のデモンストレーションとして提供されており、大幅に機能が変更される可能性があります。番環境での使用は推奨されません。また自己責任で使用してください。 Agentic Workflows は自然言語で CI/CD パイプラインを定義できるツールとして GitHub Next が開発しています。Agentic Workflows は「あらゆるプラットフォームにおけるあらゆるソフトウェアコラボレーションをサポートする自動化された AI」を指す「継続的 AI(Continuous AI)」を実現します。継続的 AI はドキュメントの作成・コードの改善・Issue のトリアージといった自動化可能で繰り返し行われるタスクを支援することを目指しています。GitHub はこの継続的 AI を研究している段階であり、Agentic W

    自然言語で CI/CD パイプラインを定義する Agentic Workflows
    sh19910711
    sh19910711 2025/09/27
    "自然言語で定義されたワークフローは GitHub CLI の拡張機能として提供される gh aw コマンドでコンパイルして実行 / 実行可能なステップがコードとして生成される"