- 博客(215)
- 收藏
- 关注

原创 【多模态&LLM】Reyes:一个从0到1开始训练的多模态大模型(技术报告)
本文记录了从0到1实现一个多模态大模型的过程,包括模型结构、数据引擎、评测全流程。当前模型训练数据与llava1.5-13b对齐,并且在MMMU评测上以更小的模型参数量超越了llava1.5-13b,当前训练数据因为只采用了图文多模态数据,在SFT阶段,并未加入text-only数据,因此,语言模型端会出现一些退化。将来若有时间,会考虑加入更多的多模态数据及笔者私有数据进行训练(如:《【多模态 & 文档智能】一次多模态大模型表格识别解析探索小实践记录》),打造更强的Reyes模型。
2025-01-12 14:14:25
1573

原创 【文档智能 & RAG】RAG增强之路:增强PDF解析并结构化技术路线方案及思路
现阶段,尽管大模型在生成式问答上取得了很大的成功,但由于大部分的数据都是私有数据,大模型的训练及微调成本非常高,RAG的方式逐渐成为落地应用的一种重要的选择方式。然而,如何准确的对文档进行划分chunks,成为一种挑战,在现实中,大部分的专业文档都是以 PDF 格式存储,低精度的 PDF 解析会显著影响专业知识问答的效果。因此,本文将介绍针对pdf,介绍一些pdf结构化技术链路供参考。
2024-06-10 16:33:06
5803

原创 正向最大匹配算法(中文分词)
一、最大匹配法 最大匹配是指以词典为依据,取词典中最长单词为第一个次取字数量的扫描串,在词典中进行扫描(为提升扫描效率,还可以跟据字数多少设计多个字典,然后根据字数分别从不同字典中进行扫描)。最大匹配算法有三种: 1、正向最大匹配 2、逆向最大匹配 3、双向匹配 三种算法原理都一样,以正向为例,是从前向后扫描的过程。如下:二、使用北大训练集实现正向最大匹配1、数据集(从中选取北大的训练集)2、代码实现# -*- coding: utf-8 -*-"""@au
2020-08-30 17:49:42
14791
1
原创 Agent上下文工程:如何构建可靠的AI Agent
manus:Peak在 Manus 项目伊始,我和团队就面临一个关键抉择:是利用开源基础模型训练一个端到端的智能体,还是依托前沿模型的上下文学习能力,在其之上构建智能体?在我投身 NLP 的第一个十年里,我们并没有这种奢侈的选择。遥想当年 BERT 问世(没错,那已是七年前),模型必须先经过微调——还要评估——才能迁移到新任务。每次迭代往往耗时数周,尽管那时的模型体积与今日的 LLMs 相比微不足道。对于快速迭代的应用,尤其是 PMF 之前的阶段,如此缓慢的反馈循环几乎是致命的。
2025-07-27 14:40:30
873
原创 GRPO强化学习缓解多模态大模型OCR任务的幻觉思路及数据生成思路
多模态大模型在“看不清”文字时瞎编答案,称为“OCR幻觉”,如下图,主要有几点:(1)预训练阶段缺乏相关数据:关键信息提取(KIE)数据以及退化视觉场景的清晰标注显著不足,限制了模型处理复杂视觉输入的能力。指令微调阶段忽视退化场景:现有研究通常假设 OCR 任务输入为非退化图像,导致模型缺乏处理真实世界退化文档(如模糊、遮挡、低对比度)所需的推理能力。下面来看看一个思路。供参考。
2025-07-27 14:39:14
785
原创 标签驱动的可信金融大模型训练全流程-Agentar-Fin-R1工程思路浅尝
Agentar-Fin-R1 的开发pipline可概括为五个闭环阶段,每一阶段都有明确输入、处理逻辑和输出。
2025-07-27 14:38:44
577
原创 多模态视觉语言模型FILA-细粒度分辨率融合策略
上图是四种在图片切图上的操作:如动态分辨率仅涉及裁剪图像并将其输入CLIP-ViT、mini-gemini在最后层将低分辨率的CLIP-ViT特征与高分辨率辅助分支进行交互,主要使用交叉注意力机制,c则采用通道级串联。本文介绍的方法使用一个模块将低分辨率和高分辨率进行融合实现交互,下面来看看如何实现。
2025-07-27 14:38:06
524
原创 构建多模态大模型trick探究及六大结论
实验设计:(1)使用Perceiver Resampler(可学习的Transformer池化器)将图像token从729压缩到更少。(2)测试不同压缩数量:128 vs 64。实验设计:图像切分:在训练时将每张图像切分为4个子图 + 原图 = 5张图,每张图仍送入模型 → 总token数从64 → 320,仅在指令微调阶段使用此策略。实验设计对比:(1)强制resize为768×768正方形;1、视觉/语言主干是否同等重要?
2025-07-20 18:15:02
947
原创 将R1的思路引入多模态大模型的RL训练配方-Skywork-R1V3
来看一个实验比较扎实的工作,Skywork-R1V3将R1的思路引入多模态大模型,提出:直接将RL技术从仅文本的大语言模型转移到VLMs是不够的,需要开发VLM特定的RL配方。下面来看看如何在VLM中引入COT的RL,供参考。
2025-07-10 11:40:30
357
原创 用于实时工业社区问答的RAG新框架-ComRAG
社区问答(CQA)是一种协作式的问答模式,用户可以在在线平台上发布问题,社区成员则提供答案。这种模式利用集体智慧,通过投票、评论和编辑等方式不断优化答案,从而提高共享知识的质量。随着LLMs的兴起,LLMs已成为CQA的强大工具。然而,。文档将实时CQA任务形式化为一个数学问题。给定一个外部知识文档集合Ddii1∣D∣,以及一个连续到达的社区问题流,假设在某一时刻已经收集到的社区历史为H{(qiaii1∣H∣,其中qi是问题,ai。
2025-06-30 13:13:31
937
原创 RAG知识库构建新框架-EasyDoc小模型+多模态大模型结合的文档智能解析框架
本文从EasyDoc这个新的文档解析产品再次回顾了文档解析相关技术路线,并结合笔者深度体验了下EasyDoc的相关差异化的点,如:多模态图表理解、文档层次化树的构建等创新亮点,得出结论:小模型和多模态的模型可以协同创新解决文档结构化的难点。并且,RAG知识库的构建出了精确提取文档内容之外,还可以利用文档结构化层次树搞出一些新的玩法,比如如何像EasyDoc一样构建DocGraph,如何将DocGraph进一步的融入RAG系统,提升RAG系统性能。
2025-06-30 13:07:08
879
原创 GraphRAG变种:HippoRAG进化到HippoRAG2.0,提升多跳复杂推理性能
前面文章如下表经过评测提到:HippoRAG2生成的图更为密集,提高了信息连接性和覆盖范围。并且这种变种的GraphRAG在需要多跳推理和上下文综合的任务中表现优异。下面我们来看一看HippoRAG2如何通过增加知识图谱等结构来增强向量嵌入,以解决一些差距,即理解和关联性。供参考。
2025-06-23 16:13:01
1077
原创 Qwen3 Embedding模型架构、训练方法、数据策略
中提取的。没有额外池化头,推理路径更短。为了确保嵌入在下游任务中遵循指令,将指令和查询连接成一个单一的输入上下文,而文档保持不变,然后通过LLMs进行处理。
2025-06-21 17:23:03
856
原创 增加定位能力提升图表问答性能,新的图表理解框架-RefChartQA
现有工作主要包括图表问答(Chart QA)基准、图表理解模型和视觉答案定位(VAG)。Chart QA基准如FigureQA、DVQA、PlotQA和ChartQA等,主要集中在图表问答任务上,但缺乏显式的视觉定位,从而忽略了VLMs在ChartQA上的可解释性。RefChartQA通过将Chart QA与视觉定位相结合,并提供了一个新的基准测试,使模型能够引用图表图像中的多个粒度元素。该基准扩展了现有的ChartQA资源,专注于涉及算术或逻辑推理的问题。
2025-06-20 18:59:31
403
原创 GRPO训练布局感知的强化学习多模态文档解析框架-Infinity-Parser
前期《》专栏详细中介绍了文档智能解析详细pipline链路技术方案,如下图:现在来看一个新思路,指出pipline链路依赖大量标注数据、并且会出现错误传播问题,导致解析效果不佳,故提出一个基于布局强化学习(layoutRL)的多模态大模型的端到端的解析框架,通过强化学习(GRPO)的方式训练模型的布局感知能力。(ps:笔者看来,在通用场景下解析效果也能并不会有文中评价的那么好,但这个数据合成思路及强化学习的训练方式可以参考。
2025-06-15 17:05:39
958
原创 使用RAG的思想进行PPT生成的框架思路-SlideCoder
手动创建幻灯片既费时又费力,如何从参考图像自动生成可编辑的幻灯片?现有的问题:如Autopresent的方法,通过构建大批量的SFT数据生成ppt代码来生成ppt。然而,自然语言描述,LLMs在处理复杂PPT时存在局限性,特别是包含多样元素类型和高元素密度的情况;。往期介绍的相关ppt生成框架,如:《》、《》都提到,对于ppt生成或者海报生成都很重要。SlideCoder提出一个基于RAG的思想-。
2025-06-13 18:51:08
1345
原创 GraphRAG变种这么多,该采用哪种?九大GraphRAG评估参考
见《本文,再来看一个评估工作,同样是一个GraphRAG-bench,也再次通过评估得出,并且系统的(RAPTOR、LightRAG、GraphRAG、G-Retriever、HippoRAG、GFM-RAG、DALK、KGP和ToG)在这个benchmark上的性能,供参考。
2025-06-13 09:48:27
398
原创 什么时候用GraphRAG?RAG VS GraphRAG综合分析
最近的研究报告称,在许多实际任务中,GraphRAG的表现往往不如普通的RAG。因此产生一个问题:GraphRAG真的有效吗?在哪些场景下,GraphRAG有收益?为了解决这个问题,提出GraphRAG-Bench,这是一个评测GraphRAG的基准,目的是评估GraphRAG模型在层次知识检索和深度上下文推理方面的性能。文章指出的评测方式及评测结论可以参考。
2025-06-09 18:52:34
1027
原创 GraphRAG优化新思路-开源的ROGRAG框架
目前的如微软开源的GraphRAG的工作流程都较为复杂,难以孤立地评估各个组件的贡献,传统的检索方法在处理复杂推理任务时可能不够有效,特别是在需要理解实体间关系或多跳知识的情况下。先说结论,看完后感觉这个框架性能上不会比GraphRAG高,仅在单一数据集上进行了评测,不过优化思路可以借鉴下,比如:双层次检索提高图检索准确性等。供参考。
2025-06-09 18:51:49
431
原创 改进社区检测和检索策略大幅提升GraphRAG性能新框架-ArchRAG
给定一个问题Q,基于图的RAG的关键思想是从图中检索相关信息(例如,节点、子图或文本信息),将其与Q一起作为提示,然后输入到LLM中。如下图:因此,现有工作的工作流主要包括两个阶段:(1):从给定语料库D构建知识图谱G(V,E),其中每个顶点代表一个实体,每条边表示两个实体之间的关系,并基于知识图谱构建索引。(2):使用索引从知识图谱中检索相关信息(例如节点、子图或文本信息),并将检索到的信息提供给大型语言模型以提高响应的准确性。
2025-06-04 15:48:57
905
原创 基于KG生成语料增强解决RAG问答幻觉问题的简单框架-Walk&Retrieve
Walk&Retrieve基于知识图谱,利用基于图遍历和知识表述来进行零样本RAG的语料库生成。解决RAG系统的幻觉问题。该框架思路比较简单,核心点在于,下面来看看,供参考。
2025-05-29 14:38:53
744
原创 使用多Agent进行海报生成的技术方案及评估套件-P2P、paper2poster
最近字节、滑铁卢大学相关团队同时放出了他们使用Agent进行海报生成的技术方案,和,传统方案如类似ppt生成等思路,基本上采用固定的模版,提取相关的关键元素进行模版填充,因此,海报生成的质量完全依赖于规则模版的丰富程度。下面来看一下这两个团队使用Agent进行海报生成的技术思路,覆盖多种技术链路,如:文档智能解析、LLM、布局生成、Agent等。比如有趣,下面来看看这两个技术方案,供参考。学术海报在科学交流中起着至关重要的作用,需要在有限的页面上压缩长篇幅的多模态文档。
2025-05-28 16:25:35
1247
原创 字节开源的多模态端到端文档解析模型-Dolphin
前期介绍了一些pipline的文档解析实现路线和端到端的多模态解析方案,整理在:《下面来看一下字节最新开源的多模态文档解析方案,笔者实际测下来性能还有待提升(鉴于合成数据,泛化性还较差,存在幻觉),不过思路可以借鉴下,供参考。
2025-05-26 17:19:48
853
原创 通用RAG:通过路由模块对多源异构知识库检索生成问答思路
如何在多个语料库(多源异构知识库,如:文本、图片、视频)中检索和整合来自不同模态和粒度的知识?UniversalRAG:一种新的RAG框架,用于从多个模态和粒度的语料库中检索和整合知识。下面来看看思路,供参考。
2025-05-12 19:51:44
928
原创 多模态文档检索开源方案-三大竞赛获奖方案技术链路
前期也提到,在实际场景中,用户通常需要检索多模态文档,包括文本、图像、表格和图表。这需要一个更复杂的检索系统,能够处理多模态信息,并根据用户查询提供相关文档或段落。检索多模态文档将有助于 AI 聊天机器人、搜索引擎和其他应用程序向用户提供更准确、更相关的信息。提到的诸多方案。下面来看看www会议开设的挑战赛的三个获奖方案。概述:多模态文档检索任务专注于对多模态文档或网页中的段落进行建模,利用文本和多模态信息进行嵌入建模。最终目标是根据用户的文本或多模态查询检索相关的多模态文档或段落。
2025-05-08 21:26:06
593
原创 【文档智能】开源的阅读顺序(Layoutreader)模型使用指南
阅读顺序检测旨在捕获人类读者能够自然理解的单词序列。现有的OCR引擎通常按照从上到下、从左到右的方式排列识别到的文本行,但这并不适用于某些文档类型,如多栏模板、表格等。LayoutReader模型使用seq2seq模型捕获文本和布局信息,用于阅读顺序预测,在实验中表现出色,并显著提高了开源和商业OCR引擎在文本行排序方面的表现。详细代码已上传:https://github.com/yujunhuics/LayoutReader/blob/main/vis.py。一年前,笔者基于开源了一个阅读顺序模型(《
2025-05-08 21:23:50
611
原创 Encoder-free无编码器多模态大模型EVEv2模型架构、训练方法浅尝
基于视觉编码器的MLLM的基本构成:MLLM通常由预训练的模态编码器、预训练的LLM和一个连接它们的模态接口三个模块组成。模态编码器(如:CLIP-ViT视觉编码器、Whisper音频编码器等)将原始信息(如图像或音频)压缩成更紧凑的表示。预训练的LLM则负责理解和推理处理过的信号。模态接口用于对齐不同的模态,实现异构模态表征空间的语义对齐。下面这张图概括的比较好。上述工作都是基于视觉编码器的多模态大模型,下面来看一个Encoder-free VLMs(无视觉编码器的多模态大模型)的思路,供参考。
2025-05-02 15:36:05
624
原创 多模态大模型轻量化探索-视觉大模型SAM(Segment Anything Model)
往期,笔者基于LLava的数据对齐训练,搞了一个多模态大模型,并且看了些多模态大模型,相关开源的多模态大模型如:KimiVL、Internvl、QwenVL等,其视觉编码器的尺寸都比较大,如:MoonViT-SO-400M、InternViT-6B-448px-V2_5 等都非常大,对于特定的垂直场景(或者是端侧落地都不大友好),也许并不需要这么大视觉编码器。如:表格场景(),当时笔者用了一个8B参数的模型及百万表格数据进行训练达到了不错的效果。近期,因此思考一些模型轻量化的方案,
2025-05-02 15:30:23
1265
原创 多模态大模型轻量化探索-开源SmolVLM模型架构、数据策略及其衍生物PDF解析模型SmolDocling
缩小视觉编码器的尺寸,能够有效的降低多模态大模型的参数量。再来看一个整体的工作,,进一步降低参数量,甚至最小达256M参数量,推理时显存占用<1GB。下面来看看,仅供参考。
2025-05-02 15:29:10
1943
原创 多模态RAG演进-MRAG1.0->MRAG2.0->MRAG3.0
多模态生成:增强生成模块以处理多模态数据,通过集成MLLMs实现用户查询和检索结果的合成。多模态检索:增强检索模块以支持多模态用户输入,保留原始多模态数据并实现跨模态检索。允许基于文本的查询直接检索相关的多模态数据,结合基于字幕的召回和跨模态搜索能力。真正的端到端多模态:在知识库构建和系统输入中强调多模态能力的同时,MRAG3.0引入了多模态输出能力,完成了端到端的多模态框架。与MRAG1.0不同,MRAG2.0不仅支持多模态输入的查询,还在知识库中保留了原始的多模态数据。
2025-05-02 15:27:54
920
原创 用RAG的思路构建文档级别知识图谱构建框架-RAKG
GraphRAG经过一些场景验证KG+LLM的范式能够有效的增强RAG系统性能,对于如何联合文档建立多模态的GraphRAG,笔者之前也有过相关分享,如:《下面我们来看一个用RAG的思路构建文档级别知识图谱构建框架思路,这个思路要解决的问题是。传统的知识图谱构建方法面临的问题。整体思路可以参考下。
2025-04-18 13:02:08
798
原创 再看开源多模态RAG的视觉文档(OCR-Free)检索增强生成方案-VDocRAG
OpenDocVQA任务的目标是给定一个文档图像集合和一个问题,通过找到相关的文档图像来输出答案。视觉文档检索(Visual Document Retrieval)输入:一个查询问题QQQ和一个文档图像集合II。输出:从集合中检索出与问题相关的kkk个文档图像II,其中k≪Nk \ll Nk≪N(即kkk远小于文档集合的大小)。目标:通过检索相关的文档图像来帮助生成答案。文档视觉问答(DocumentVQA)输入:查询问题QQQ和检索到的文档图像II。
2025-04-18 13:01:00
1294
原创 十大PDF解析工具在不同文档类别中的比较研究
其实,全文看下来,这个评测的粒度还是比较粗的,但是其中的对于基于规则的pdf parser工具结论还是值得看一看的。在具体的业务场景中,选择合适的解析工具需要考虑文档类型和具体任务的需求。参考文献:A Comparative Study of PDF Parsing Tools Across Diverse。
2025-04-12 14:16:39
1218
原创 RAG分块优化之语义分块方法CrossFormer模型技术思路
CrossFormer 将文本语义分割任务定义为句子级别的序列标注问题。给定一个文档DD,包含nnn个句子,每个句子sis_isi被分配一个二分类标签yi∈01yi∈01。标签yi1y_i = 1yi1表示由语义连贯性统一的一个段落的终端边界,而yi0y_i = 0yi0表示在同一主题段落内的连续性。目标是训练一个函数fD→01nfD→01n,能够根据上下文预测每个句子的标签yiy_iyi。
2025-04-12 14:15:42
1349
1
原创 公式识别:利用分层且聚焦细节的网络提升复杂公式识别能力
我们的工作解决了数学表达式识别(MER)领域的两个根本性局限:一是缺乏能够涵盖复杂层次结构的数据集,二是现有模型无法解析复杂公式中的细粒度细节。首先,HDR数据集为MER研究树立了新的标杆。它拥有一亿个训练样本,并且有一个涵盖多个不同学科领域的多标签测试集。这促使模型去处理嵌套结构、多行公式以及功能等效的解释。通过纳入从简单字符到深度嵌套矩阵的不同层次,HDR弥合了理论研究与实际应用之间的差距。其次,HDNet重新定义了模型处理复杂公式的方式。
2025-03-30 15:42:23
396
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人