[B! llm] [7ページ] stealthinuのブックマーク

ChatGPT - LLMシステム開発大全

私の今まで経験してきた全てのLLMノウハウを詰め込んだ、LLMシステムの開発ガイドです。初めてLLMシステムを開発したいと思った時でも、精度改善や運用に行き詰った時でも、何かしら役に立つと思います。現在200ページ超。今後も随時更新していきます。 2023/7/28 体裁修…

stealthinu 2024/08/01

だいぶ長いがこれまでのいろんな手法で効果的だったものが網羅的にまとめられてる。

リンク

Unity向けの簡易的なVADライブラリの紹介 - Activ8 Tech Blog

こんにちは、エンジニアの渡辺（@mochi_neko_7）です。今回は VAD (Voice Activity Detection、音声区間検出) を Unity で利用するためのライブラリを自作してみたのでこちらを紹介します。 github.com Unity で発話している音声区間を判定したり、その音声データを切り取って何かに利用したい場合に便利なライブラリになっています。ざっくりした説明は README にも書いてはいるのですが、こちらの記事では背景や設計などもう少し踏み込んだ話も紹介します。以前の記事 synamon.hatena blog.com で紹介した Logging のライブラリを使用するため、Unity のバージョンは Unity 2022.3 以上になっている点にご注意ください。背景様々なユースケースを想定した VAD の設計音声入力ロジック VAD ロジッ

stealthinu 2024/07/30

Unity向けの軽いVAD

リンク

Aider - AI Pair Programming in Your Terminal

AI pair programming in your terminal Aider lets you pair program with LLMs to start a new project or build on your existing codebase.

stealthinu 2024/07/30

gitのリポジトリに対して修正をcommitしてくれるエージェント型のツール。Claude-3.5-sonnetかGPT-4oが使える。

リンク

Cursorよさらば!これからはAIderで対話しながらプログラムを作る時代だ! ｜shi3z

ドリ山田金之助がCursorというAI搭載テキストエディターを使って独自のビデオ編集をやってるという話を風の噂で聞いた。ドリ山田くーん、遅い、遅いよー　とか煽るのも可哀想だったので放置していたのだが、昨日(!!)もっとゴイスーなAIソフト開発環境を触って元に戻れなくなってしまったのでご紹介しておく。その最新の開発環境とは、人呼んでAIder(エイダー) こいつの何がすごいかというと、gitをcloneしてくると、ソースコード読ませて「これにこういう機能を追加しろ」と言うと勝手に追加してgit commitしてしまう。良きところで/git push origin mainとやればやってくれる。まあAI開発ものにありがちな、「自信満々で提出されたけどいざ動かすとポンコツ」なケースが多くて、使うには忍耐が必要だが、頭は使わなくていい。たまに頭を使ったふりをして「もしかしてこの関数がやばいん

stealthinu 2024/07/30

Cursorは補助ツールの位置づけだがAIderはエージェントの位置づけになるんだろうな。

リンク

テキスト抽出不要のRAGを実現するColPali

導入こんにちは、株式会社ナレッジセンスの須藤英寿です。普段はエンジニアとして、LLMを使用したチャットのサービスを提供しており、とりわけRAGシステムの改善は日々の課題になっています。本記事では、画像の情報をそのままベクトルデータにして検索する手法、ColPaliについて解説します。サマリー通常、RAGでは文書データからテキストを抽出して、その文字をベクトルデータに変換します。しかしColPaliは、文書データを画像として認識してベクトル化を行います。画像として保管することでテキスト化できない情報を扱うことができます。他にもベクトルを複数に分解することで精度を改善し、テキストの抽出が必要ないことからデータ保管時のコストの大幅な低減などのメリットを享受できます。 PDFのデータを保管する際には、ColPaliモデルに正規化したPDF画像を入力として渡し1024個の128次元ベクトルを

stealthinu 2024/07/30

PDFを画像としてRAGのチャンク化して扱う手法。これは図表に強そうだが、日本語でも精度出るのかな？

リンク

何度でも言う。AI開発に「失敗したので諦めます」は絶対にない。

俺は量子コンピュータを研究してたからわかる。意味がわからないか？お前らはAI以外の科学研究分野になんて興味もないから知らないんだろうが、この業界には「もはやだれもできると信じてないけど、政治的にやり続けなければいけない研究」というものがある。量子コンピュータがそうで、20年前には「無理。できない。ほぼ間違いなく」という答えが出てる。それでもなぜ研究を辞められないか？　「ほぼ」でなく「絶対」でない限り、もし万が一にも億が一にも「敵対勢力」に先に開発されたら安全保障に重大なリスクが出るから、というだけの話だ。かつての原爆や宇宙開発と同じだ。違うのは、これらがある程度の結果にたどりつくことで開発競争にもケリがついたことと違って、量子コンピュータはどこまで行っても何にもならないから、ただ無駄に研究費を食うだけなこと。成果が出ていると強弁するために、「量子超越性」などと20年前はなかっ

stealthinu 2024/07/26

いやー、さすがにLLMやdeeplearningを同じ枠にいれるのは無理がある。35年前の第2次ニューラルネットブームの時ならいざ知らず。さすがにもうAGIはすぐそこだとみんな思ってるよ。

リンク

面倒な分析はGoogle Colabにやらせよう

これはなに？ちょっとした分析の用事で久しぶりにGoogle Colaboratory (以下 Colab) を触ったら結構良くなってました。Cursorでコード書くのも快適だけど、面倒なデータ分析やるならやっぱColabの方が便利だなぁと再認識しました。そこで、最近Colabに追加されて便利になったと思う機能を簡単にまとめてみました。(見てわかる通りタイトルはもちろん話題のあの本のオマージュです😇) 最近のColab便利機能を使おう粒度まちまちですがざーっと書いていきます。「最近」の定義は曖昧なのでご容赦ください。 Github Copilot的なコード補完を使おう Github Copilotみたいなコード補完機能がついにColabに搭載されました。↓のように補完してくれます。 VS CodeでもCursorでも一緒やん、って思われるかもしれませんが、Colabのような多機能No

stealthinu 2024/07/25

Colabが色々と使いやすくなってる。Geminiを簡単に使えるようになってるところとSpreadsheetとの連携とかがいい。

colab
LLM

リンク

Google、アプリ実行時に生成AIが適切なUIを構成し動的生成する「AI Generated UI」発表

Google、アプリ実行時に生成AIが適切なUIを構成し動的生成する「AI Generated UI」発表基本的に、アプリケーションのユーザーインターエイス（UI）は開発時に設計され実装されて、その実装通りに実行時に表示されるものです。しかしこのUIを開発時ではなく、アプリケーションの実行時に生成AIが適切に構成して動的に生成し表示する「AI Generated UI」という仕組みを、Googleがインドのバンガロールで行われたイベント「Google I/O Connect Bengaluru 2024」で発表しました。現時点でAI Generated UIはFlutterフレームワークの上にアーリープレビューとして実装されており、ユーザーの意図に基づいてFlutterが動的にUIコンポーネントとレイアウトを構成し、ユーザーにパーソナライズされた最適なUIを表示すると説明されています

stealthinu 2024/07/23

UIをLLMに生成させるもの。最近結構あるけどGoogleが公式で出してるというところが大きい。品質もいいのだろうか。

リンク

GitHub - tegnike/aituber-kit: A web application for chatting with AI characters that anyone can easily set up and deploy.

You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

stealthinu 2024/07/22

アバターと会話するためのガワで音声合成エンジンの選択肢が広い。difyとのAPIを持っているところが特徴的。

リンク

GitHub - uezo/ChatdollKit: ChatdollKit enables you to make your 3D model into a chatbot

You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

stealthinu 2024/07/22

Unityのアバターを使ってChatbotを構築できる。LLMやTTS/STTは色々なものを利用できるようになってる。リアルタイム対応の工夫が色々ある。

リンク

Remdisの環境構築で沼った話（＋使い方の紹介）

はじめに今回はRemdisというテキスト・音声・マルチモーダル対話システム開発のためのプラットフォームを利用するための環境構築で沼ったことを記事にまとめます。最終的にはなんとか環境構築に成功したので、同じく沼っている方がいらっしゃれば参考になればと思います。最後にRemdisを簡単に使ってみたので、その使い方についても紹介します。 Remdisとは Remdisはテキスト・音声・マルチモーダル対話システム開発のためのプラットフォームです。詳細は下記のリポジトリをご覧ください。下記のデモ動画にもありますように、非常に自然かつ低遅延なリアルタイム対話を可能にしているシステムです。また、こちらのリポジトリを解説されている書籍も販売されております。非常にコードがわかりやすく解説されていますため、Remdisを利用したい方はぜひ購入しましょう。おすすめです。 Pythonと大規模言語モデ

stealthinu 2024/07/20

Remdisのインストールで自分もハマっていたがこの方の情報で進めることができそう。色々とつらい。

リンク

Tracking AI

I created this website so that anyone can immediately see up-to-date AI chatbot political opinions and biases. I hope that will be useful in a couple ways: It informs users about the ideologies of the AIs they use. It helps us all switch to less-biased AIs, or to AIs with philosophies closer to their own. It can serve as a useful tool for AI creators, who may want their AI to be politically reason

stealthinu 2024/07/19

LLMのIQテストランク。というかIQテストの点で比べてもGPT4からGPT4oへこんだけ性能あがってたのか。

リンク

GPT-4o mini: advancing cost-efficient intelligence

stealthinu 2024/07/19

GPT-4o miniはGPT3.5やGemini Flashを完全に超えてて超早くて超安い。もはや3.5使う場面はなくなったと考えて良い。

リンク

Pre-translation vs. direct inference in multilingual LLM applications

stealthinu 2024/07/19

LLMで一旦英語に翻訳してからのほうが精度良くなると言われていたことの現時点での検証。今は翻訳せず元の言語のままでやったほうが精度高い。

リンク

BM42: New Baseline for Hybrid Search - Qdrant

For the last 40 years, BM25 has served as the standard for search engines. It is a simple yet powerful algorithm that has been used by many search engines, including Google, Bing, and Yahoo. Though it seemed that the advent of vector search would diminish its influence, it did so only partially. The current state-of-the-art approach to retrieval nowadays tries to incorporate BM25 along with embedd

stealthinu 2024/07/04

BM42というBM25の後継にあたるハイブリッド検索。BM25->SPLADEの流れを踏襲して改善したもの。

リンク

【都知事選2024】AIによるマニフェストへの質疑応答システム「AIあんの」の裏側を公開します！｜Jun Ito

安野たかひろ事務所技術チームリーダーの伊藤です。安野は大学時代の友人で、彼が今回の選挙戦で実現しようとしている、老若男女の意見を募り、誰も取り残さないことを旨とする選挙活動・民主主義の形に共感し、ぜひ力になりたいと思いPdM・エンジニアとして手伝いをしております！この記事では、先日公開になった「AIあんの」のシステムについて、技術者の観点から、実現しようとしている状態と、技術的な裏側について解説してみようと思います。 AIあんのとはAIあんのは、安野たかひろの政策を学習したAI応答システムが、本人のアバターと声色によって、Youtube Liveと電話という2つの経路で、みなさまのご意見やご質問に回答するシステムです。配信でAIあんのに質問したい場合は、以下からアクセスしてみてください。（URLは変更になる場合があります。その際はアカウントから配信を探してみてください。）また電

stealthinu 2024/06/28

RAG使って本人の声で問い合わせに答えるようなシステムになっている。色々な既存技術をうまく組み合わせてこれだけのものが出来てる。

リンク

NVIDIA、AIトレーニング用合成データ生成モデル「Nemotron-4 340B」を商用利用可でリリース

米NVIDIAは6月14日（現地時間）、LLMのトレーニング用オープン合成データ生成モデルシリーズ「Nemotron-4 340B」を発表した。独自のオープンモデルライセンス（PDF）の下、「あらゆる業界の商用アプリケーション向けLLM」のトレーニングに使うデータセットを合成できるとしている。つまり、商用利用も可能だ。 LLMの開発では、高品質で多様なデータセットでのトレーニングが不可欠だが、ネットなどから収集したデータには偏りや不正確なものが含まれる可能性があり、量にも限りがある。そのため、合成データの生成に注目が集まっている。 Nemotron-4 340Bには、合成データ生成のパイプラインを形成するbase、instruct、rewardの3つのモデルが含まれる。baseモデルは、9兆個のトークでトレーニングされたカスタマイズの基盤となるモデル。独自データを組み込むことで、このモデル

stealthinu 2024/06/19

Nemotron4 340Bの性能はGemini-1.5くらいっぽいがそれよりもLLMが出力した結果を学習データセット生成に使って良いってなってるとこが超すごい。H100x8あれば動かせるとのこと。会社なら買える規模。

リンク

自動プロンプト最適化をやってみた - Algomatic Tech Blog

はじめまして！データサイエンティストの山内(@jof_5)です。本記事では、日々、プロンプト開発されている皆様に向けて、プロンプトを効率的に開発する手法の一つである「自動プロンプト最適化」について記載いたします。 1. プロンプトエンジニアリングの必要性と課題 2. 自動プロンプト最適化について 2-0. 最適なプロンプトとは何か？☕ 2-1. 自動プロンプトの概要 2-2. 自動プロンプト最適化のアーキテクチャ ①Task Executor: LLMによるタスクの実行 ②Output Evaluator: 出力の評価 ③ Prompt Improver: 最適なプロンプトの生成 3. 実験結果と考察 3-1. 自動プロンプト最適化の有効性の検証 3-2. 最適化プロンプトの生成過程 3-3. 最適化されたプロンプトの特徴 3-4. プロンプト生成用LLM(Prompt Improver

stealthinu 2024/06/17

自動プロンプト最適化でHaikuでもOpusと同性能が出せてる。これ余計なコストかからずこれはだいぶうれしいな。

リンク

Alice in Wonderland: Simple Tasks Showing Complete Reasoning Breakdown in State-Of-the-Art Large Language Models

Large Language Models (LLMs) are often described as being instances of foundation models - that is, models that transfer strongly across various tasks and conditions in few-show or zero-shot manner, while exhibiting scaling laws that predict function improvement when increasing the pre-training scale. These claims of excelling in different functions and tasks rely on measurements taken across vari

stealthinu 2024/06/08

オープンなLLMで現在使われているベンチマークでは高評価になるものがぜんぜんダメなタイプの問題もありクローズドなLLMではその問題が起きないためベンチ自体を改善する必要があるとの指摘

リンク

Deep State Space Models 101 / Mamba

Deep State Space Models 101 / Mamba 2024/01/19 Kotoba Techno logies Seminar Series で使用した発表資料です．連絡先：https://twitter.com/hiroto_kurita

stealthinu 2024/06/07

Deep State Space Models(DSS)がどんなモデルなのかの説明。TransformerとRNNのいいとこ取りを目指す。Mambaの解説。

リンク

はてなブックマーク

タグ

関連タグで絞り込む (55)

llmに関するstealthinuのブックマーク (367)

お知らせ

今週のはてなブックマーク数ランキング（2025年6月第1週）

今週のはてなブックマーク数ランキング（2025年5月第4週）

今週のはてなブックマーク数ランキング（2025年5月第3週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス