[B! VLM] yuisekiのブックマーク

LLaVA-CoT: Let Vision Language Models Reason Step-by-Step

Large language models have demonstrated substantial advancements in reasoning capabilities. However, current Vision-Language Models (VLMs) often struggle to perform systematic and structured reasoning, especially when handling complex visual question-answering tasks. In this work, we introduce LLaVA-CoT, a large VLM designed to conduct autonomous multistage reasoning. Unlike chain-of-thought promp

yuiseki 2024/12/06

リンク

画像認識の新手法『LLaVA-o1』4段階推論で実現した高精度のAIモデル | ARCHETYP Staffing Magazine

画像認識の新手法『LLaVA-o1』4段階推論で実現した高精度のAIモデルARCHETYP Staffing Magazine2024年11月26日2024年11月26日 OpenAIのo1モデルは、AIの推論時により多くの計算リソースを使用することで、より正確な結果を導き出せることを示しました。この手法を画像認識の分野に取り入れた中国の複数の研究機関が開発したLLaVA-o1は、従来のAIが抱えていた課題を解決する新たな方法を提案しています。 ARCHETYP Staffingでは現在クリエイターを募集しています。エンジニア、デザイナー、ディレクター以外に、生成AI人材など幅広い職種を募集していますのでぜひチェックしてみてください！ボタンから募集中の求人一覧ページに移動できます。 4段階の推論過程で実現する正確な画像理解 LLaVA-o1は、中国の複数の研究機関が開発した画像認識と推

yuiseki 2024/12/06

リンク

Gemini-1.5-proやGPT-4o-miniなどの性能を上回るLLaVA-o1（11Bパラメータ） - AIDB

本記事では、視覚と言語を組み合わせたマルチモーダルLLMの推論能力を大きく向上させた新しい研究を紹介します。これまでの視覚言語モデルは一般的に論理的な推論を苦手としており、また推論過程でエラーを起こしやすいという問題を抱えていました。そこで研究チームは、人間のように段階的に考えを組み立てていく新しいアプローチを開発し、その有効性を実証しました。背景視覚は世界を理解し認知能力を拡張するために言語と同様に重要な要素とされています。そのため、言語と視覚を統合しながら推論するマルチモーダルモデルの開発は重要な課題とされています。通常、視覚言語モデル（VLM）は論理的推論を必要とするタスクは得意としていません。Chain-of-Thought（ステップバイステップの思考）を導入すると性能は向上するものの、多くのVLMは依然として推論過程でエラーや幻覚出力（事実とは異なる回答）を生成するという

yuiseki 2024/12/06

リンク

LoRAアダプターのホットスワッピングを使ったColQwen2単体でのRAGを試す

ここで知った。これちょっと気になる。 🚀 新しいクックブックのご紹介：アダプターのホットスワッピングを活用し、単一のColQwen2モデルでRAGパイプライン全体を実装する方法を解説。無料のColab T4でも動作します！詳しくはこちらをご覧ください： https://github.com/tonywu71/colpali-cookbooks (1/N) アダプターのホットスワッピング 🔄 とは、タスクに応じてモデル内でタスク固有のアダプターをリアルタイムでロードおよびアンロードできる機能を指します。これによりVRAMを節約でき、特にオンエッジモデルにおいて重要な利点となります。 (2/N) ColQwen2は、Qwen2-VL-2B VLMをベースにLoRAを使用してトレーニングされています。そのため、アダプターのホットスワッピングによって以下が可能になります： 1️⃣ 埋め込みの

yuiseki 2024/12/06

リンク

VLM用の合成instructionデータセットを作ろう

1人ローカルLLMアドベントカレンダーの3日目です。ローカルLLMやマルチモーダルモデルの学習やデータセット周りについて書いていく予定なので、興味がある方は明日以降も読んでいただけると嬉しいです！要約画像からVLM用のinstructionデータセットを合成した合成したデータセットでVLMを学習した目的 VLM用のinstructionデータセットはOpenAIの規約に抵触しているものが多く、ライセンスの問題がないデータは一問一答形式のものがほとんどです。私が以前作成したLlama-3.2-11B-VisionとLlama-3.1-Swallow-8B-v0.1をChatVectorでマージしたモデルはeosトークンの出力が不安定なので、実際に使うにはSFTが必要になるのですが、Llama-3.2の性能を維持した上で学習できるデータがありませんでした。そこで、性能を維持できる

yuiseki 2024/12/06

リンク

日本語に特化したOCR、文書画像解析Pythonパッケージ「YomiToku」を公開しました｜Kotaro.Kinoshita

はじめに最近、LLMへのRAGを用いた文書データの連携等を目的に海外を中心にOCRや文書画像解析技術に関連する新しいサービスが活発にリリースされています。しかし、その多くは日本語をメインターゲットに開発されているわけではありません。日本語文書は、英数字に加えて、ひらがな、漢字、記号など数千種類の文字を識別する必要があったり、縦書きなど日本語ドキュメント特有のレイアウトに対処する必要があったりと日本語特有の難しさがあります。ですが、今後、海外の開発者がこれらの課題に対処するため、日本のドキュメント画像解析に特化したものをリリースする可能性は低く、やはり自国の言語向けのサービスは自国のエンジニアが開発すべきだと筆者は考えています。もちろん、Azure Document Intelligenceをはじめとした、クラウドサービスのドキュメント解析サービスはありますが、クラウドを利用できないユ

yuiseki 2024/11/27

リンク

【Pycon mini 東海 2024】Google Colaboratoryで試すVLM

yuiseki 2024/11/16

リンク

Chat VectorでLLaVAを日本語対応させる

import torch from transf ormers import AutoTokenizer, AutoModelForCausalLM from llava.model.builder import load_pretrained_model if __name__ == "__main__": vlm_model_name = "liuhaotian/llava-v1.5-7b" vlm_tokenizer, vlm_model, image_processor, context_len = load_pretrained_model( model_path=vlm_model_name, model_base=None, model_name="llava-v1.5-7b", load_bf16=True, device_map="cpu", device="cpu" )

yuiseki 2024/11/14

リンク

Chat VectorでLlama-3.2-VisionにLlama-3.1をマージして日本語対応させる

要約 ChatVectorを用いて、Llama-3.1-Swallow-8B-v0.1の日本語能力をLlama-3.2-11B-Visionに付加した今回作成したモデルはこちら目的 meta-llama/Llama-3.2-11B-Vision-Instructのモデルカードに Llama 3.2-Vision is built on top of Llama 3.1 text-only model, which is an auto-regressive language model that uses an optimized transf ormer architecture. Llama 3.2-Visionは、Llama 3.1のテキスト専用モデルの上に構築されており、最適化された変換器アーキテクチャを使用する自動回帰型言語モデルです。と記載されているように、Llama-3.

yuiseki 2024/11/14

リンク

google/paligemma-3b-pt-224 · Hugging Face

yuiseki 2024/05/17

リンク

Google | PaliGemma | Kaggle

PaliGemma is a versatile and lightweight vision-language model (VLM) inspired by PaLI-3 and based on open components such as the SigLIP vision model and the Gemma language model.

yuiseki 2024/05/17

リンク

big_vision/big_vision/configs/proj/paligemma/README.md at main · google-research/big_vision

yuiseki 2024/05/17

リンク

Metaがテキストベースのプロンプトに視覚情報ベースで回答するAIエージェントのベンチマーク「OpenEQA」をリリース

現地時間の2024年4月11日、Metaがテキストベースの質問に対してAIエージェントの物理空間の理解度を測定することができるベンチマーク「OpenEQA」をリリースしました。 OpenEQA: From word models to world models https://ai.meta.com/blog/openeqa-embodied-question-answering-robotics-ar-glasses/ OpenEQA: Embodied Question Answering in the Era of Foundation Models https://open-eqa.github.io/ Meta AI releases OpenEQA to spur 'embodied intelligence' in artificial agents | VentureBea

yuiseki 2024/04/13

リンク

日本語Vision Languageモデル heron-blip-v1の公開

はじめに Turingでは完全自動運転実現に向けて、LLMやそれを用いたVision Langauge（V&L）モデルの開発に取り組んでいます。最近は経済産業省／NEDOの「競争力のある生成AI基盤モデルの開発を支援する「GENIACプロジェクト」」にも採択されるなど、大規模な生成AIの開発に精力的に取り組んでいます。特に、Vision Languageモデルについては、Heronというライブラリとモデル群を公開しており、今回は新しいモデルとその学習レシピを公開します。また、日本語のV&LモデルをGPT-4を用いて評価するためのプログラムも公開します。 Heronとは V&Lモデルは、画像を認識する「ビジョンエンコーダ」、文章を生成する「LLM」、それら2つをつなぐ「アダプタ」から構成されます。heronのコードを用いることで、これらの様々な組み合わせのオリジナルV&Lモデルを作成するこ

yuiseki 2024/03/06

リンク

はてなブックマーク

タグ

関連タグで絞り込む (4)

VLMに関するyuisekiのブックマーク (14)

お知らせ

今週のはてなブックマーク数ランキング（2026年1月第4週）

今週のはてなブックマーク数ランキング（2026年1月第3週）

【完了】はてなブックマークの計画メンテナンスのお知らせ（2026年1月23日(金) 深夜1:30〜3:00）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス