余俊晖-CSDN博客

原创【多模态&LLM】Reyes：一个从0到1开始训练的多模态大模型（技术报告）

本文记录了从0到1实现一个多模态大模型的过程，包括模型结构、数据引擎、评测全流程。当前模型训练数据与llava1.5-13b对齐，并且在MMMU评测上以更小的模型参数量超越了llava1.5-13b，当前训练数据因为只采用了图文多模态数据，在SFT阶段，并未加入text-only数据，因此，语言模型端会出现一些退化。将来若有时间，会考虑加入更多的多模态数据及笔者私有数据进行训练（如：《【多模态 & 文档智能】一次多模态大模型表格识别解析探索小实践记录》），打造更强的Reyes模型。

2025-01-12 14:14:25 1573

原创【文档智能 & RAG】RAG增强之路：增强PDF解析并结构化技术路线方案及思路

现阶段，尽管大模型在生成式问答上取得了很大的成功，但由于大部分的数据都是私有数据，大模型的训练及微调成本非常高，RAG的方式逐渐成为落地应用的一种重要的选择方式。然而，如何准确的对文档进行划分chunks，成为一种挑战，在现实中，大部分的专业文档都是以 PDF 格式存储，低精度的 PDF 解析会显著影响专业知识问答的效果。因此，本文将介绍针对pdf，介绍一些pdf结构化技术链路供参考。

2024-06-10 16:33:06 5803

原创正向最大匹配算法（中文分词）

一、最大匹配法最大匹配是指以词典为依据，取词典中最长单词为第一个次取字数量的扫描串，在词典中进行扫描（为提升扫描效率，还可以跟据字数多少设计多个字典，然后根据字数分别从不同字典中进行扫描）。最大匹配算法有三种： 1、正向最大匹配 2、逆向最大匹配 3、双向匹配三种算法原理都一样，以正向为例，是从前向后扫描的过程。如下：二、使用北大训练集实现正向最大匹配1、数据集（从中选取北大的训练集）2、代码实现# -*- coding: utf-8 -*-"""@au

2020-08-30 17:49:42 14791 1

原创 Agent上下文工程：如何构建可靠的AI Agent

manus:Peak在 Manus 项目伊始，我和团队就面临一个关键抉择：是利用开源基础模型训练一个端到端的智能体，还是依托前沿模型的上下文学习能力，在其之上构建智能体？在我投身 NLP 的第一个十年里，我们并没有这种奢侈的选择。遥想当年 BERT 问世（没错，那已是七年前），模型必须先经过微调——还要评估——才能迁移到新任务。每次迭代往往耗时数周，尽管那时的模型体积与今日的 LLMs 相比微不足道。对于快速迭代的应用，尤其是 PMF 之前的阶段，如此缓慢的反馈循环几乎是致命的。

2025-07-27 14:40:30 873

原创 GRPO强化学习缓解多模态大模型OCR任务的幻觉思路及数据生成思路

多模态大模型在“看不清”文字时瞎编答案，称为“OCR幻觉”，如下图，主要有几点：（1）预训练阶段缺乏相关数据：关键信息提取（KIE）数据以及退化视觉场景的清晰标注显著不足，限制了模型处理复杂视觉输入的能力。指令微调阶段忽视退化场景：现有研究通常假设 OCR 任务输入为非退化图像，导致模型缺乏处理真实世界退化文档（如模糊、遮挡、低对比度）所需的推理能力。下面来看看一个思路。供参考。

2025-07-27 14:39:14 785

原创标签驱动的可信金融大模型训练全流程-Agentar-Fin-R1工程思路浅尝

Agentar-Fin-R1 的开发pipline可概括为五个闭环阶段，每一阶段都有明确输入、处理逻辑和输出。

2025-07-27 14:38:44 577

原创多模态视觉语言模型FILA-细粒度分辨率融合策略

上图是四种在图片切图上的操作：如动态分辨率仅涉及裁剪图像并将其输入CLIP-ViT、mini-gemini在最后层将低分辨率的CLIP-ViT特征与高分辨率辅助分支进行交互，主要使用交叉注意力机制，c则采用通道级串联。本文介绍的方法使用一个模块将低分辨率和高分辨率进行融合实现交互，下面来看看如何实现。

2025-07-27 14:38:06 524

原创 GRPO强化多模态大模型目标检测能力奖励函数代码设计

多模态大模型的目标检测任务可以通过GRPO训练增强，因此今天本文介绍的代码适用于。

2025-07-20 18:15:33 274

原创构建多模态大模型trick探究及六大结论

实验设计：（1）使用Perceiver Resampler（可学习的Transformer池化器）将图像token从729压缩到更少。（2）测试不同压缩数量：128 vs 64。实验设计：图像切分:在训练时将每张图像切分为4个子图 + 原图 = 5张图,每张图仍送入模型 → 总token数从64 → 320,仅在指令微调阶段使用此策略。实验设计对比：（1）强制resize为768×768正方形；1、视觉/语言主干是否同等重要？

2025-07-20 18:15:02 947

原创将R1的思路引入多模态大模型的RL训练配方-Skywork-R1V3

来看一个实验比较扎实的工作，Skywork-R1V3将R1的思路引入多模态大模型，提出：直接将RL技术从仅文本的大语言模型转移到VLMs是不够的，需要开发VLM特定的RL配方。下面来看看如何在VLM中引入COT的RL，供参考。

2025-07-10 11:40:30 357

原创快手Kwai Keye-VL多模态大模型模型架构、训练策略、数据情况

快速看一下Kwai Keye-VL的技术报告，

2025-07-09 19:18:42 1024

原创多模态偏好数据集生成与混合偏好优化（MPO）方法

每个数据样本包括一张图像。

2025-07-06 20:04:41 939

原创用于实时工业社区问答的RAG新框架-ComRAG

社区问答（CQA）是一种协作式的问答模式，用户可以在在线平台上发布问题，社区成员则提供答案。这种模式利用集体智慧，通过投票、评论和编辑等方式不断优化答案，从而提高共享知识的质量。随着LLMs的兴起，LLMs已成为CQA的强大工具。然而，。文档将实时CQA任务形式化为一个数学问题。给定一个外部知识文档集合Ddii1∣D∣，以及一个连续到达的社区问题流，假设在某一时刻已经收集到的社区历史为H{(qiaii1∣H∣，其中qi是问题，ai。

2025-06-30 13:13:31 937

原创 RAG知识库构建新框架-EasyDoc小模型+多模态大模型结合的文档智能解析框架

本文从EasyDoc这个新的文档解析产品再次回顾了文档解析相关技术路线，并结合笔者深度体验了下EasyDoc的相关差异化的点，如：多模态图表理解、文档层次化树的构建等创新亮点，得出结论：小模型和多模态的模型可以协同创新解决文档结构化的难点。并且，RAG知识库的构建出了精确提取文档内容之外，还可以利用文档结构化层次树搞出一些新的玩法，比如如何像EasyDoc一样构建DocGraph，如何将DocGraph进一步的融入RAG系统，提升RAG系统性能。

2025-06-30 13:07:08 879

原创 GraphRAG变种：HippoRAG进化到HippoRAG2.0,提升多跳复杂推理性能

前面文章如下表经过评测提到：HippoRAG2生成的图更为密集，提高了信息连接性和覆盖范围。并且这种变种的GraphRAG在需要多跳推理和上下文综合的任务中表现优异。下面我们来看一看HippoRAG2如何通过增加知识图谱等结构来增强向量嵌入，以解决一些差距，即理解和关联性。供参考。

2025-06-23 16:13:01 1077

原创 Qwen3 Embedding模型架构、训练方法、数据策略

中提取的。没有额外池化头，推理路径更短。为了确保嵌入在下游任务中遵循指令，将指令和查询连接成一个单一的输入上下文，而文档保持不变，然后通过LLMs进行处理。

2025-06-21 17:23:03 856

原创增加定位能力提升图表问答性能，新的图表理解框架-RefChartQA

现有工作主要包括图表问答（Chart QA）基准、图表理解模型和视觉答案定位（VAG）。Chart QA基准如FigureQA、DVQA、PlotQA和ChartQA等，主要集中在图表问答任务上，但缺乏显式的视觉定位，从而忽略了VLMs在ChartQA上的可解释性。RefChartQA通过将Chart QA与视觉定位相结合，并提供了一个新的基准测试，使模型能够引用图表图像中的多个粒度元素。该基准扩展了现有的ChartQA资源，专注于涉及算术或逻辑推理的问题。

2025-06-20 18:59:31 403

原创 GRPO训练布局感知的强化学习多模态文档解析框架-Infinity-Parser

前期《》专栏详细中介绍了文档智能解析详细pipline链路技术方案，如下图：现在来看一个新思路，指出pipline链路依赖大量标注数据、并且会出现错误传播问题，导致解析效果不佳，故提出一个基于布局强化学习（layoutRL）的多模态大模型的端到端的解析框架，通过强化学习（GRPO）的方式训练模型的布局感知能力。（ps：笔者看来，在通用场景下解析效果也能并不会有文中评价的那么好，但这个数据合成思路及强化学习的训练方式可以参考。

2025-06-15 17:05:39 958

原创使用RAG的思想进行PPT生成的框架思路-SlideCoder

手动创建幻灯片既费时又费力，如何从参考图像自动生成可编辑的幻灯片？现有的问题：如Autopresent的方法，通过构建大批量的SFT数据生成ppt代码来生成ppt。然而，自然语言描述，LLMs在处理复杂PPT时存在局限性，特别是包含多样元素类型和高元素密度的情况；。往期介绍的相关ppt生成框架，如：《》、《》都提到，对于ppt生成或者海报生成都很重要。SlideCoder提出一个基于RAG的思想-。

2025-06-13 18:51:08 1345

原创 GraphRAG变种这么多，该采用哪种？九大GraphRAG评估参考

见《本文，再来看一个评估工作，同样是一个GraphRAG-bench，也再次通过评估得出，并且系统的（RAPTOR、LightRAG、GraphRAG、G-Retriever、HippoRAG、GFM-RAG、DALK、KGP和ToG）在这个benchmark上的性能，供参考。

2025-06-13 09:48:27 398

原创什么时候用GraphRAG？RAG VS GraphRAG综合分析

最近的研究报告称，在许多实际任务中，GraphRAG的表现往往不如普通的RAG。因此产生一个问题：GraphRAG真的有效吗？在哪些场景下，GraphRAG有收益？为了解决这个问题，提出GraphRAG-Bench，这是一个评测GraphRAG的基准，目的是评估GraphRAG模型在层次知识检索和深度上下文推理方面的性能。文章指出的评测方式及评测结论可以参考。

2025-06-09 18:52:34 1027

原创 GraphRAG优化新思路-开源的ROGRAG框架

目前的如微软开源的GraphRAG的工作流程都较为复杂，难以孤立地评估各个组件的贡献，传统的检索方法在处理复杂推理任务时可能不够有效，特别是在需要理解实体间关系或多跳知识的情况下。先说结论，看完后感觉这个框架性能上不会比GraphRAG高，仅在单一数据集上进行了评测，不过优化思路可以借鉴下，比如：双层次检索提高图检索准确性等。供参考。

2025-06-09 18:51:49 431

原创改进社区检测和检索策略大幅提升GraphRAG性能新框架-ArchRAG

给定一个问题Q，基于图的RAG的关键思想是从图中检索相关信息（例如，节点、子图或文本信息），将其与Q一起作为提示，然后输入到LLM中。如下图：因此，现有工作的工作流主要包括两个阶段：(1)：从给定语料库D构建知识图谱G(V,E)，其中每个顶点代表一个实体，每条边表示两个实体之间的关系，并基于知识图谱构建索引。(2)：使用索引从知识图谱中检索相关信息（例如节点、子图或文本信息），并将检索到的信息提供给大型语言模型以提高响应的准确性。

2025-06-04 15:48:57 905

原创基于KG生成语料增强解决RAG问答幻觉问题的简单框架-Walk&Retrieve

Walk&Retrieve基于知识图谱，利用基于图遍历和知识表述来进行零样本RAG的语料库生成。解决RAG系统的幻觉问题。该框架思路比较简单，核心点在于，下面来看看，供参考。

2025-05-29 14:38:53 744

原创使用多Agent进行海报生成的技术方案及评估套件-P2P、paper2poster

最近字节、滑铁卢大学相关团队同时放出了他们使用Agent进行海报生成的技术方案，和，传统方案如类似ppt生成等思路，基本上采用固定的模版，提取相关的关键元素进行模版填充，因此，海报生成的质量完全依赖于规则模版的丰富程度。下面来看一下这两个团队使用Agent进行海报生成的技术思路，覆盖多种技术链路，如：文档智能解析、LLM、布局生成、Agent等。比如有趣，下面来看看这两个技术方案，供参考。学术海报在科学交流中起着至关重要的作用，需要在有限的页面上压缩长篇幅的多模态文档。

2025-05-28 16:25:35 1247

原创字节开源的多模态端到端文档解析模型-Dolphin

前期介绍了一些pipline的文档解析实现路线和端到端的多模态解析方案，整理在：《下面来看一下字节最新开源的多模态文档解析方案，笔者实际测下来性能还有待提升（鉴于合成数据，泛化性还较差，存在幻觉），不过思路可以借鉴下，供参考。

2025-05-26 17:19:48 853

原创 Qwen3模型架构、训练方法梳理

qwen3炼丹真是全是技巧，下面来看看，仅供参考。

2025-05-14 13:25:05 1185

原创通用RAG：通过路由模块对多源异构知识库检索生成问答思路

如何在多个语料库（多源异构知识库，如：文本、图片、视频）中检索和整合来自不同模态和粒度的知识？UniversalRAG：一种新的RAG框架，用于从多个模态和粒度的语料库中检索和整合知识。下面来看看思路，供参考。

2025-05-12 19:51:44 928

原创多模态文档检索开源方案-三大竞赛获奖方案技术链路

前期也提到，在实际场景中，用户通常需要检索多模态文档，包括文本、图像、表格和图表。这需要一个更复杂的检索系统，能够处理多模态信息，并根据用户查询提供相关文档或段落。检索多模态文档将有助于 AI 聊天机器人、搜索引擎和其他应用程序向用户提供更准确、更相关的信息。提到的诸多方案。下面来看看www会议开设的挑战赛的三个获奖方案。概述：多模态文档检索任务专注于对多模态文档或网页中的段落进行建模，利用文本和多模态信息进行嵌入建模。最终目标是根据用户的文本或多模态查询检索相关的多模态文档或段落。

2025-05-08 21:26:06 593

原创【文档智能】开源的阅读顺序（Layoutreader）模型使用指南

阅读顺序检测旨在捕获人类读者能够自然理解的单词序列。现有的OCR引擎通常按照从上到下、从左到右的方式排列识别到的文本行，但这并不适用于某些文档类型，如多栏模板、表格等。LayoutReader模型使用seq2seq模型捕获文本和布局信息，用于阅读顺序预测，在实验中表现出色，并显著提高了开源和商业OCR引擎在文本行排序方面的表现。详细代码已上传：https://github.com/yujunhuics/LayoutReader/blob/main/vis.py。一年前，笔者基于开源了一个阅读顺序模型（《

2025-05-08 21:23:50 611

原创 Encoder-free无编码器多模态大模型EVEv2模型架构、训练方法浅尝

基于视觉编码器的MLLM的基本构成：MLLM通常由预训练的模态编码器、预训练的LLM和一个连接它们的模态接口三个模块组成。模态编码器(如：CLIP-ViT视觉编码器、Whisper音频编码器等)将原始信息（如图像或音频）压缩成更紧凑的表示。预训练的LLM则负责理解和推理处理过的信号。模态接口用于对齐不同的模态，实现异构模态表征空间的语义对齐。下面这张图概括的比较好。上述工作都是基于视觉编码器的多模态大模型，下面来看一个Encoder-free VLMs（无视觉编码器的多模态大模型）的思路，供参考。

2025-05-02 15:36:05 624

空空如也

空空如也