私の今まで経験してきた全てのLLMノウハウを詰め込んだ、LLMシステムの開発ガイドです。 初めてLLMシステムを開発したいと思った時でも、精度改善や運用に行き詰った時でも、何かしら役に立つと思います。 現在200ページ超。 今後も随時更新していきます。 2023/7/28 体裁修…

私の今まで経験してきた全てのLLMノウハウを詰め込んだ、LLMシステムの開発ガイドです。 初めてLLMシステムを開発したいと思った時でも、精度改善や運用に行き詰った時でも、何かしら役に立つと思います。 現在200ページ超。 今後も随時更新していきます。 2023/7/28 体裁修…
こんにちは、エンジニアの渡辺(@mochi_neko_7)です。 今回は VAD (Voice Activity Detection、音声区間検出) を Unity で利用するためのライブラリを自作してみたのでこちらを紹介します。 github.com Unity で発話している音声区間を判定したり、その音声データを切り取って何かに利用したい場合に便利なライブラリになっています。 ざっくりした説明は README にも書いてはいるのですが、こちらの記事では背景や設計などもう少し踏み込んだ話も紹介します。 以前の記事 synamon.hatenablog.com で紹介した Logging のライブラリを使用するため、Unity のバージョンは Unity 2022.3 以上になっている点にご注意ください。 背景 様々なユースケースを想定した VAD の設計 音声入力ロジック VAD ロジッ
ドリ山田金之助がCursorというAI搭載テキストエディターを使って独自のビデオ編集をやってるという話を風の噂で聞いた。 ドリ山田くーん、遅い、遅いよー とか煽るのも可哀想だったので放置していたのだが、昨日(!!)もっとゴイスーなAIソフト開発環境を触って元に戻れなくなってしまったのでご紹介しておく。 その最新の開発環境とは、人呼んでAIder(エイダー) こいつの何がすごいかというと、gitをcloneしてくると、ソースコード読ませて「これにこういう機能を追加しろ」と言うと勝手に追加してgit commitしてしまう。良きところで/git push origin mainとやればやってくれる。 まあAI開発ものにありがちな、「自信満々で提出されたけどいざ動かすとポンコツ」なケースが多くて、使うには忍耐が必要だが、頭は使わなくていい。たまに頭を使ったふりをして「もしかしてこの関数がやばいん
導入 こんにちは、株式会社ナレッジセンスの須藤英寿です。普段はエンジニアとして、LLMを使用したチャットのサービスを提供しており、とりわけRAGシステムの改善は日々の課題になっています。 本記事では、画像の情報をそのままベクトルデータにして検索する手法、ColPaliについて解説します。 サマリー 通常、RAGでは文書データからテキストを抽出して、その文字をベクトルデータに変換します。しかしColPaliは、文書データを画像として認識してベクトル化を行います。画像として保管することでテキスト化できない情報を扱うことができます。他にもベクトルを複数に分解することで精度を改善し、テキストの抽出が必要ないことからデータ保管時のコストの大幅な低減などのメリットを享受できます。 PDFのデータを保管する際には、ColPaliモデルに正規化したPDF画像を入力として渡し1024個の128次元ベクトルを
俺は量子コンピュータを研究してたからわかる。 意味がわからないか? お前らはAI以外の科学研究分野になんて興味もないから知らないんだろうが、この業界には「もはやだれもできると信じてないけど、政治的にやり続けなければいけない研究」というものがある。 量子コンピュータがそうで、20年前には「無理。できない。ほぼ間違いなく」という答えが出てる。 それでもなぜ研究を辞められないか? 「ほぼ」でなく「絶対」でない限り、もし万が一にも億が一にも「敵対勢力」に先に開発されたら安全保障に重大なリスクが出るから、というだけの話だ。 かつての原爆や宇宙開発と同じだ。 違うのは、これらがある程度の結果にたどりつくことで開発競争にもケリがついたことと違って、量子コンピュータはどこまで行っても何にもならないから、ただ無駄に研究費を食うだけなこと。 成果が出ていると強弁するために、「量子超越性」などと20年前はなかっ
これはなに? ちょっとした分析の用事で久しぶりにGoogle Colaboratory (以下 Colab) を触ったら結構良くなってました。Cursorでコード書くのも快適だけど、面倒なデータ分析やるならやっぱColabの方が便利だなぁと再認識しました。 そこで、最近Colabに追加されて便利になったと思う機能を簡単にまとめてみました。(見てわかる通りタイトルはもちろん話題のあの本のオマージュです😇) 最近のColab便利機能を使おう 粒度まちまちですがざーっと書いていきます。「最近」の定義は曖昧なのでご容赦ください。 Github Copilot的なコード補完を使おう Github Copilotみたいなコード補完機能がついにColabに搭載されました。↓のように補完してくれます。 VS CodeでもCursorでも一緒やん、って思われるかもしれませんが、Colabのような多機能No
Google、アプリ実行時に生成AIが適切なUIを構成し動的生成する「AI Generated UI」発表 基本的に、アプリケーションのユーザーインターエイス(UI)は開発時に設計され実装されて、その実装通りに実行時に表示されるものです。 しかしこのUIを開発時ではなく、アプリケーションの実行時に生成AIが適切に構成して動的に生成し表示する「AI Generated UI」という仕組みを、Googleがインドのバンガロールで行われたイベント「Google I/O Connect Bengaluru 2024」で発表しました。 現時点でAI Generated UIはFlutterフレームワークの上にアーリープレビューとして実装されており、ユーザーの意図に基づいてFlutterが動的にUIコンポーネントとレイアウトを構成し、ユーザーにパーソナライズされた最適なUIを表示すると説明されています
はじめに 今回はRemdisというテキスト・音声・マルチモーダル対話システム開発のためのプラットフォームを利用するための環境構築で沼ったことを記事にまとめます。 最終的にはなんとか環境構築に成功したので、同じく沼っている方がいらっしゃれば参考になればと思います。 最後にRemdisを簡単に使ってみたので、その使い方についても紹介します。 Remdisとは Remdisはテキスト・音声・マルチモーダル対話システム開発のためのプラットフォームです。 詳細は下記のリポジトリをご覧ください。 下記のデモ動画にもありますように、非常に自然かつ低遅延なリアルタイム対話を可能にしているシステムです。 また、こちらのリポジトリを解説されている書籍も販売されております。非常にコードがわかりやすく解説されていますため、Remdisを利用したい方はぜひ購入しましょう。おすすめです。 Pythonと大規模言語モデ
I created this website so that anyone can immediately see up-to-date AI chatbot political opinions and biases. I hope that will be useful in a couple ways: It informs users about the ideologies of the AIs they use. It helps us all switch to less-biased AIs, or to AIs with philosophies closer to their own. It can serve as a useful tool for AI creators, who may want their AI to be politically reason
For the last 40 years, BM25 has served as the standard for search engines. It is a simple yet powerful algorithm that has been used by many search engines, including Google, Bing, and Yahoo. Though it seemed that the advent of vector search would diminish its influence, it did so only partially. The current state-of-the-art approach to retrieval nowadays tries to incorporate BM25 along with embedd
安野たかひろ事務所 技術チームリーダーの伊藤です。 安野は大学時代の友人で、彼が今回の選挙戦で実現しようとしている、老若男女の意見を募り、誰も取り残さないことを旨とする選挙活動・民主主義の形に共感し、ぜひ力になりたいと思いPdM・エンジニアとして手伝いをしております! この記事では、先日公開になった「AIあんの」のシステムについて、技術者の観点から、実現しようとしている状態と、技術的な裏側について解説してみようと思います。 AIあんのとはAIあんのは、安野たかひろの政策を学習したAI応答システムが、本人のアバターと声色によって、Youtube Liveと電話という2つの経路で、みなさまのご意見やご質問に回答するシステムです。 配信でAIあんのに質問したい場合は、以下からアクセスしてみてください。 (URLは変更になる場合があります。その際はアカウントから配信を探してみてください。) また電
米NVIDIAは6月14日(現地時間)、LLMのトレーニング用オープン合成データ生成モデルシリーズ「Nemotron-4 340B」を発表した。独自のオープンモデルライセンス(PDF)の下、「あらゆる業界の商用アプリケーション向けLLM」のトレーニングに使うデータセットを合成できるとしている。つまり、商用利用も可能だ。 LLMの開発では、高品質で多様なデータセットでのトレーニングが不可欠だが、ネットなどから収集したデータには偏りや不正確なものが含まれる可能性があり、量にも限りがある。そのため、合成データの生成に注目が集まっている。 Nemotron-4 340Bには、合成データ生成のパイプラインを形成するbase、instruct、rewardの3つのモデルが含まれる。baseモデルは、9兆個のトークでトレーニングされたカスタマイズの基盤となるモデル。独自データを組み込むことで、このモデル
はじめまして!データサイエンティストの山内(@jof_5)です。 本記事では、日々、プロンプト開発されている皆様に向けて、プロンプトを効率的に開発する手法の一つである「自動プロンプト最適化」について記載いたします。 1. プロンプトエンジニアリングの必要性と課題 2. 自動プロンプト最適化について 2-0. 最適なプロンプトとは何か?☕ 2-1. 自動プロンプトの概要 2-2. 自動プロンプト最適化のアーキテクチャ ①Task Executor: LLMによるタスクの実行 ②Output Evaluator: 出力の評価 ③ Prompt Improver: 最適なプロンプトの生成 3. 実験結果と考察 3-1. 自動プロンプト最適化の有効性の検証 3-2. 最適化プロンプトの生成過程 3-3. 最適化されたプロンプトの特徴 3-4. プロンプト生成用LLM(Prompt Improver
Large Language Models (LLMs) are often described as being instances of foundation models - that is, models that transfer strongly across various tasks and conditions in few-show or zero-shot manner, while exhibiting scaling laws that predict function improvement when increasing the pre-training scale. These claims of excelling in different functions and tasks rely on measurements taken across vari
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く