- 博客(7)
- 资源 (2)
- 收藏
- 关注
原创 MMRAG-DocQA多模态检索增强生成方法:源码实现分析
本篇文章对论文MMRAG-DocQA(arXiv:2508.00579) 的源码进行详细分析,源代码可从此处下载:https://github.com/Gzy1112/MMRAG-DocQA。MMRAG-DocQA 是一个先进的多模态检索增强生成(RAG)系统,它提出了一套全新的多模态检索增强生成方法,通过精巧的 “分层索引” 和 “多粒度检索” 机制,成功地让AI在理解复杂长文档方面迈出了一大步。该系统结合了分层索引、多粒度检索和递归抽象处理技术,为复杂的文档理解问题提供了高质量的解决方案。
2025-08-09 22:39:55
677
原创 深度解析MMRAG-DocQA :当RAG遇上多模态,如何让AI读懂复杂文档?
《MMRAG-DocQA:突破多模态长文档理解的AI新方法》 面对金融财报、技术手册等复杂的多模态长文档,传统AI方法面临模态割裂和信息碎片化两大挑战。MMRAG-DocQA提出创新解决方案:通过分层索引构建"智能地图"——页内扁平化索引连接文字与图像,跨页拓扑索引关联分散主题;采用多粒度检索策略,既确保单页信息的完整性,又能实现跨页推理。实验证明,该方法能显著提升AI对复杂文档的理解能力,在金融分析、科研文献处理等场景展现巨大应用潜力,为实现"专家级"文档理解能力迈
2025-08-08 11:20:11
1032
原创 深度集成Dify API:基于Streamlit的合同智能审查系统前端解决方案
本文介绍了一个基于Streamlit与Dify Chatflow API集成的智能合同审查系统,主要实现了以下功能:1)支持多格式合同文件上传(.docx/.pdf/.md等);2)通过Dify API实现AI智能风险分析;3)提供实时流式处理与结果展示;4)支持评审结果导出为Markdown、Word、PDF格式,特别优化了中文显示问题。系统采用分层架构设计,包含前端展示层(Streamlit+自定义CSS)、应用逻辑层(文件管理/API集成)和AI服务层(Dify Chatflow)
2025-08-02 22:09:07
870
原创 构建弹性大模型智能体:通过反馈循环掌握自校正与自适应规划
大语言模型驱动的自主智能体虽在复杂任务执行方面展现出潜力,但面临"不听话"(指令偏离)和"决策失误"等核心挑战。采用反馈循环实现自校正的解决方案:1)建立感知-规划-行动-反思的智能体循环,其中反思环节是关键纠错机制;2)采用分层规划分解复杂任务,结合短期/长期记忆系统积累经验;3)完善工具调用机制,避免外部交互引发的故障传播。通过ReAct、Reflexion等架构将自适应规划与自校正深度整合,可显著提升智能体系统的可靠性和适应性。
2025-08-01 20:18:29
653
原创 我的Agent总是不听话?别急,教你用『分层任务拆解』驯服它
摘要: 探讨了AI Agent在执行复杂任务时容易“失控”的根本原因——单体Agent缺乏有效的任务分解能力,导致目标模糊、工具误用和规划偏差。采用分层任务网络(HTN)框架,将Agent拆分为“规划师”与“执行者”双模块。文章演示了如何用Python构建自定义Gym环境,并实现任务拆解、模型训练与执行闭环。此外,还建议引入“评估者”模块动态修正计划,以及利用语言模型辅助奖励塑造,最终打造具备“思考-行动”能力的可靠Agent系统。核心观点是:分层架构比单体Agent更可控,能有效避免“删库跑路”式灾难。
2025-07-31 11:40:36
968
原创 深度集成Dify API:基于Vue 3的智能对话前端解决方案(二)
【代码】深度集成Dify API:基于Vue 3的智能对话前端解决方案(二)
2025-07-27 08:41:02
1028
原创 深度集成Dify API:基于Vue 3的智能对话前端解决方案(一)
Dify编排的Chatflow工作流具有很强的灵活性和易用性,在很多场景得到大量应用,但是Dify提供的前端发布方式例如嵌入网站或者发布成Web App,效果呈现都很不灵活或者比较简陋,难以应用在要求较高的场合。但是Dify提供了强大的API方式,可以和专业开发的前端对话界面实现前后端集成。本文就此基于Vue3实现了下图是界面效果。
2025-07-26 23:48:37
1852
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人