- 博客(238)
- 收藏
- 关注
原创 《M-RAG: Reinforcing Large Language Model Performance through Retrieval-Augmented Generation with Mul
本文提出M-RAG框架,通过多分区检索增强生成技术解决传统RAG系统的关键问题。研究将知识库划分为M个独立分区(如M=4),采用双代理强化学习机制:Agent-S负责最优分区选择,Agent-R优化检索记忆。实验显示,在文本摘要、机器翻译和对话生成任务中,M-RAG平均性能提升10.3%,ROUGE-1达48.13。该框架支持细粒度检索、隐私保护和分布式处理,但存在训练开销较大等局限。未来将探索动态分区和轻量化部署等方向,代码已集成至LlamaIndex框架。
2025-09-03 14:57:17
756
原创 《POISONED-MRAG: KNOWLEDGE POISONING ATTACKS TO MULTIMODAL RETRIEVAL AUGMENTED GENERATION》
多模态RAG系统存在严重安全漏洞!最新研究《Poisoned-MRAG》揭示,攻击者仅需在知识库注入5个恶意图像-文本对(占比0.001%),就能操控GPT-4o等模型输出错误答案。研究提出两种攻击策略:脏标签攻击(无需检索器信息,成功率98%)和净标签攻击(语义隐蔽,成功率94%)。实验表明现有防御机制几乎失效,8个主流VLMs全部沦陷。该研究警示:医疗、自动驾驶等高风险领域的多模态RAG系统亟需新型安全架构。完整论文及代码已开源。
2025-09-03 14:54:48
711
原创 《OMNIEAR: BENCHMARKING AGENT REASONING IN EMBODIED TASKS》
论文《OMNIEAR: BENCHMARKING AGENT REASONING IN EMBODIED TASKS》提出首个评估具身智能体物理推理能力的基准。针对现有基准在连续物理属性建模、动态工具获取和隐式协作识别方面的不足,该研究构建了包含1,500个场景的三层次评估体系,涵盖单代理基础指令到多代理复合协作任务。实验发现:大模型在隐式推理任务中性能骤降29%,72B参数后出现性能饱和;多代理任务微调效果有限(1.5%→5.5%),且完整环境信息反而降低协作成功率54%。研究揭示了Transformer
2025-09-02 20:04:52
877
原创 《Visual Abstraction: A Plug-and-Play Approach for Text-Visual Retrieval》
摘要:论文《VisualAbstraction:APlug-and-PlayApproachforText-VisualRetrieval》(VISA)提出了一种创新的跨模态检索方法,通过视觉抽象化将图像/视频转化为语义密集的文本描述,再通过QA精炼实现查询自适应匹配。VISA采用模块化设计,兼容现有视觉语言模型(如CLIP),无需额外训练,在COCO、Flickr30K等数据集上R@1提升最高达12.1%。其核心优势包括细粒度语义捕捉、计算高效性及即插即用部署,适用于安防、电商等场景。未来可优化方向包括自
2025-09-02 20:01:05
818
原创 四个典型框架对比
选择多智能体框架就像为项目挑选合适的“团队协作模式”。AutoGen 像是一个专业的软件开发团队,擅长编码和自动化。 像是一位强大的架构师,能设计和管理极其复杂的工作流。CrewAI 像一个高效的轻量级任务小组,追求快速响应和简单配置。MetaGPT 则是一个虚拟的软件公司,能模拟从产品到测试的完整流程。希望这些信息能帮助你做出更好的选择。
2025-09-01 23:42:17
618
原创 一个好的智能体框架应该是什么样子
优秀多智能体协同框架应具备八大核心特征:模块化分工、高效通信机制、协同控制流、知识共享系统、冲突解决机制、自我改进能力、人机协同接口和可观测性设计。理想框架应像专业团队一样运作,支持动态角色分配(如产品经理、开发、测试等智能体),采用标准化通信协议,并具备状态同步和记忆管理能力。关键评估维度包括协同效率、方案质量、系统鲁棒性和可扩展性。不同框架各有侧重:AutoGen适合商业应用,CAMEL擅长复杂问题解决,MetaGPT专精软件开发。最终选择需根据具体场景需求平衡技术复杂度与实用性。
2025-09-01 23:40:20
717
原创 Multi-Head RAG: Solving Multi-Aspect Problems with LLMs
《Multi-HeadRAG:基于多头注意力的大模型多维度检索增强生成方法》提出创新性解决方案,突破传统RAG在复杂查询中的性能瓶颈。研究揭示传统方法因单向量表征导致多维度语义丢失(如跨领域查询召回率不足40%),而MRAG通过提取Transformer多头注意力输出,零成本生成多组嵌入向量,分别捕获不同语义维度。实验表明,该方法在合成/工业数据集上实现20%召回率提升,且保持存储效率(总维度不变)。典型应用显示医疗诊断、法律文书等场景的关键证据检索效率提升18-22%。该技术无缝兼容现有RAG生态,开源代
2025-08-31 23:47:32
490
原创 《MRAMG-Bench: A Comprehensive Benchmark for Advancing Multimodal Retrieval-Augmented Multimodal Gene
《MRAMG-Bench:多模态检索增强生成综合基准》解析 该论文创新性地提出了多模态检索增强多模态生成(MRAMG)任务,突破传统RAG仅输出文本的局限,要求系统生成图文交织的答案。研究团队构建了包含4,800QA对的跨领域评测基准MRAMG-Bench,涵盖网页、学术、生活三大场景,首创支持动态图像插入位置评估的体系。实验对比11个模型发现:GPT-4o在LLM-Based方法中表现最优(平均66.11分),而规则方法在高密度图像场景性价比突出。研究揭示了图像顺序理解(准确率仅32-55%)等核心挑战,
2025-08-31 23:43:28
679
原创 《HM-RAG: Hierarchical Multi-Agent Multimodal Retrieval Augmented Generation》
《HM-RAG:分层多智能体多模态检索增强生成》论文提出创新框架解决传统RAG系统的三大局限:模态割裂、信息损失和实时性不足。该架构通过分解代理、多源检索代理(文本/图谱/网络)和决策代理的三级协作,实现跨模态知识融合。实验表明,在ScienceQA和CrisisMMD基准上准确率提升12.95%,参数量7B即超越72B模型。关键技术包括模块化设计、多模态残差学习和专家引导精炼,在医疗、工业、金融领域展现应用价值。开源生态已获8.4K星标,标志着多模态RAG向"协同智能"范式演进。
2025-08-30 20:19:43
953
原创 《RMoA: Optimizing Mixture-of-Agents through Diversity Maximization and Residual Compensation》
本文提出RMoA框架,通过多样性筛选和残差补偿优化多智能体系统。核心创新包括:1)贪婪多样性嵌入选择算法,减少68%计算开销;2)残差补偿机制抑制信息衰减;3)自适应终止机制降低31.88%推理成本。实验表明,RMoA在MATH等基准任务上显著提升性能(如Gemma2-9B准确率+13.8%),并在金融、医疗等领域展现应用潜力。该框架创新性地将残差学习引入多智能体协同,为提升AI系统的效率与鲁棒性提供了新思路。
2025-08-30 20:17:29
878
原创 ReMA——基于多智能体强化学习的大语言模型元思考能力培养框架
《ReMA:基于多智能体强化学习的LLM元思考训练框架》摘要 OPPO AI团队提出的ReMA框架创新性地通过双智能体架构培养大语言模型的元思考能力。该框架将推理过程分解为高层策略制定与底层任务执行,采用分层强化学习实现协同优化。实验表明,ReMA在数学推理等任务上实现6.68%的平均提升,计算效率提升84.6%,并在跨领域任务中展现出卓越的泛化能力。该研究开源了包含模型权重、训练代码和16万条轨迹数据的完整技术栈,为AGI发展提供了新路径。
2025-08-29 18:21:39
575
原创 深度解析《Chain-of-Agents: End-to-End Agent Foundation Models via Multi-Agent Distillation and Agentic RL
《Chain-of-Agents》提出端到端多智能体基础模型CoA,通过智能体蒸馏和强化学习实现三大突破:1)单模型内动态角色协作,减少84.6%推理开销;2)从顶尖多智能体系统蒸馏能力,数据质量提升3.2倍;3)创新DAPO算法使GAIA任务成功率提升37%。实验显示在GAIA等基准上超越SOTA达21.3%,内存占用仅为传统系统的1/50。该框架为金融分析、工业质检等复杂场景提供高效解决方案,已开源模型权重和16.4万条训练轨迹。尽管在长程任务和领域适配方面仍存局限,其单模型多智能体架构为下一代AI系统
2025-08-29 18:18:00
1163
原创 RAGFlow
RAGFlow是一款开源深度文档理解型RAG引擎,支持30+格式文档解析,具备智能分块、混合检索和可溯源问答功能。其核心技术包括表格识别(准确率超90%)、多路召回检索(召回率提升35%)和自动化工作流,支持GPT等主流大模型集成。采用分层微服务架构,适用于企业知识库、智能客服等场景,提供Docker一键部署方案,相比同类产品在复杂文档处理和答案溯源方面表现更优。
2025-08-28 23:44:40
947
原创 LightRAG
LightRAG 通过轻量化图谱索引与灵活检索策略,解决了传统 RAG 在动态更新与复杂关系推理上的瓶颈,特别适合需快速响应、资源受限的场景。其开源生态(支持 OpenAI/Ollama/Hugging Face 模型)和模块化存储设计,进一步降低了企业部署门槛。开发者可通过GitHub 项目获取完整代码与案例。
2025-08-28 23:40:22
1221
原创 camel agent
CAMEL(Communicative Agents for “Mind” Exploration of Large Language Models)是一个开源的多智能体框架,专注于通过角色扮演和结构化通信机制实现大语言模型(LLM)驱动的智能体协作。
2025-08-27 23:47:25
1078
原创 Agno Agent
AgnoAgent是一个开源轻量级多模态智能体框架,具有极速性能(2微秒创建)、低内存(3.75KiB)和全模态支持等优势。其模块化架构包含执行引擎、记忆系统和工具链,支持多智能体协作和知识增强。开发者可通过简单API快速构建应用,适用于智能客服、量化交易等场景。尽管在企业级功能和安全机制上存在局限,但其高性能和低成本特性使其成为构建下一代AI系统的理想选择。提供Docker部署和丰富社区资源,开发者可轻松扩展功能。
2025-08-27 23:43:45
1324
原创 LangGraph
LangGraph是LangChain团队开发的开源框架,专为构建复杂、有状态的LLM应用设计。核心特性包括:1)图结构工作流,支持条件分支和循环;2)自动状态管理,持久化保存中间结果;3)支持人工干预和多代理协作。技术架构融合Actor模型和Pregel计算模型,具备检查点容错和LangSmith可视化能力。典型应用包括多轮对话系统、自动化工作流和多代理协同任务。虽然学习曲线较陡,但能有效解决传统线性流程的局限性,特别适合需要状态跟踪和企业级高可控的场景。
2025-08-26 23:56:25
963
原创 主流的 AI Agent 开发框架
:模块化设计(Chain/Prompt/Tool/Memory),支持 200+ 工具集成(搜索、数据库、API)和多模型路由(OpenAI/Claude/本地模型)。:端到端自主任务闭环(目标→规划→执行→反馈),内置长期记忆(向量数据库)和动态上下文管理。:可视化控制台 + 插件市场(Notion/SQL 集成),支持任务监控和日志追踪。:模拟公司角色分工(如产品经理、工程师),通过任务队列实现层级化协作。:复现软件公司工作流(需求→设计→编码→测试),自动生成文档和代码。
2025-08-26 23:51:18
409
原创 DeepSeek-R1-0528
DeepSeek-R1-0528模型在DeepSeekV3Base基础上通过强化后训练显著提升了推理能力,在数学、编程等基准测试中达到国内领先水平。新版模型在AIME2025测试准确率提升至87.5%,思维深度增强明显(平均23K tokens/题)。模型优化了45-50%的幻觉问题,并增强了创意写作和工具调用能力。API保持原有接口,支持FunctionCalling和64K上下文,开源版本提供128K上下文。该模型的改进方法对推理模型研究和小模型开发具有重要价值。
2025-05-30 14:31:45
449
原创 Qwen3[特殊字符] Qwen Chat
阿里云正式推出Qwen3系列大语言模型,包含从0.6B到235B参数的密集型和MoE混合专家架构模型。新版本支持智能与非智能模式切换,在数学推理、代码生成和多语言处理(支持100+种语言)方面表现优异。模型提供多种部署方式,包括Transformers、llama.cpp等框架支持,并兼容苹果MLX平台。Qwen3采用Apache 2.0开源协议,技术细节详见相关技术报告。用户可通过HuggingFace或ModelScope获取模型权重,文档提供了从推理到微调的完整使用指南。
2025-05-30 14:28:50
980
原创 国产海光DCU及超算平台深度解析
尽管面临生态完善度与国际技术差距的挑战,其持续迭代的产品性能、与DeepSeek等企业的深度合作,以及国家“东数西算”战略的推动,将加速国产DCU在AI、科学计算等领域的全面替代进程。• 智算中心建设:在国家级超算中心中,海光DCU集群已支持千亿参数大模型训练,单集群算力规模达100PFLOPS(FP16),训练效率达到英伟达H100集群的65%。• 采用7nm+工艺,显存容量提升至512GB,带宽达1.536TB/s,支持全精度模型训练,适配文心一言、通义千问等国产大模型。
2025-05-05 17:14:34
4649
原创 2025年5月5日星期一的摸鱼大冒险
摸鱼不是懒惰,而是**在有限时间内最大化幸福感**的艺术。今天的计划将分为 **「现实操作」** 和 **「脑内漫游」** 两部分,让你既能高效完成任务,又能偷偷给生活加点料。- **幻想加成**:在手机相册里新建一个「未来旅行」文件夹,拍一张食物照片,配上文案:「2025年6月5日,我在清迈的街头吃到了这碗汤」。- **方案B**(外出):去附近新开的泰式餐厅,点一份冬阴功汤+芒果糯米饭,吃完后在商场里假装试穿度假泳衣(别买,只是想象)。同事们给我视频连线,说我的粽子像艺术品。
2025-05-05 16:58:19
363
原创 qwen3
💜 Qwen Chat | 🤗 Hugging Face | 🤖 ModelScope | 📑 Paper | 📑 Blog | 📖 Documentation🖥️ Demo | 💬 WeChat (微信) | 🫨 Discord Visit our Hugging Face or ModelScope organization (click links above), search checkpoints with na
2025-05-03 15:22:16
889
原创 Qwen3
我们很高兴地宣布 Qwen3 的发布,它是 Qwen 大型语言模型家族的最新成员。这些模型代表了我们的最高成就和最智能的系统,从构建 QwQ 和 Qwen2.5 的经验中不断进步。我们将 Qwen3 的权重向公众开放,包括密集型和混合专家(MoE)模型。多种尺寸的密集型和混合专家(MoE)模型,包括 0.6B、1.7B、4B、8B、14B、32B 以及 30B-A3B、235B-A22B。在思考模式(用于复杂的逻辑推理、数学和编码)和非思考模式。
2025-05-03 15:20:28
851
原创 llama factory怎么命令行推理图片
{"role": "assistant", "content": "这是由电阻R1、电容C2和运放U3组成的低通滤波电路..."}• Windows系统需使用双反斜杠:`"images": ["data\\mllm_demo_data\\1.jpg"]`"file_name": "circuit_sum_data.json", // 实际数据文件名。{"role": "user", "content": "描述这张电路图"},"role_tag": "role", // 角色字段映射。
2025-04-26 14:50:23
531
原创 llama factory 命令行推理流程
首先找到报错的行,看看计算时都用到哪些变量或者数据,然后在调试模式下使用.is_cuda这个属性去查看到底哪些是在GPU上,哪些是在CPU上,然后把它们统一都放在CPU,或者统一放在GPU上就可以。self.rope_deltas = torch.tensor(...) # 默认可能在CPU或错误GPU。修改文件:模型定义部分(如 __init__ 方法)修改文件:modeling_qwen2_vl.py。1. 强制统一设备(推荐)。2. 模型初始化修正。
2025-04-26 08:00:00
546
原创 TensorFlow
TensorFlow 是一个端到端的开源机器学习平台,拥有广泛而灵活的生态系统,包括 工具,库 和 社区资源。我们使用 GitHub 问题 来追踪请求和 bug,如果您有普通问题和讨论,建议访问 TensorFlow 论坛,具体的问题请提交到 Stack Overflow。TensorFlow 原本由谷歌大脑机器智能团队的研究员和工程师开发,用于在机器学习和神经网络领域进行研究。也可以使用 tf-nightly 和 tf-nightly-cpu 在 PyPi 上获取测试用的夜间构建版本。
2025-04-25 08:00:00
534
原创 BERT BERT BERT
BERT是一种预训练语言表示的方法,意味着我们在大型文本语料库(如维基百科)上训练一个通用的“语言理解”模型,然后用该模型来执行我们关心的下游NLP任务(例如,问答)。BERT超越了以前的方法,因为它是首个无监督、深度双向的预训练NLP系统。无监督意味着BERT仅使用纯文本语料库进行训练,这一点很重要,因为许多语言在网络上有大量公开可用的纯文本数据。预训练表示可以是上下文无关的或是上下文相关的,而上下文相关的表示则可以是单向的或双向的。例如,像word2vec或GloVe。
2025-04-25 08:00:00
770
原创 BERT BERT
BERT是一种预训练语言表示的方法,意味着我们在大型文本语料库(如维基百科)上训练一个通用的“语言理解”模型,然后用该模型来执行我们关心的下游NLP任务(例如,问答)。BERT超越了以前的方法,因为它是首个无监督、深度双向的预训练NLP系统。无监督意味着BERT仅使用纯文本语料库进行训练,这一点很重要,因为许多语言在网络上有大量公开可用的纯文本数据。预训练表示可以是上下文无关的或是上下文相关的,而上下文相关的表示则可以是单向的或双向的。例如,像word2vec或GloVe。
2025-04-24 23:46:15
1468
原创 Google Gemma
这是关于的一系列指南和示例的集合。Gemma 是一系列轻量级、最先进的开放模型,由创建 Gemini 模型所用的相同研究和技术构建而成。
2025-04-24 14:45:22
1067
1
原创 Ollama
Ollama 是一个轻量级、可扩展的框架,用于在本地计算机上构建和运行语言模型。它提供了创建、运行和管理模型的简单 API,以及一系列预构建模型的库,这些模型可以轻松地应用于各种场景。NOTE] 运行 7B 模型至少需要 8 GB 内存,运行 13B 模型需要 16 GB 内存,运行 33B 模型需要 32 GB 内存。Ollama 提供了一套 REST API,用于运行和管理模型。命令,可以在不运行桌面应用程序的情况下启动 ollama。指令并提供要导入的模型的本地文件路径。快速上手大型语言模型。
2025-04-24 14:42:25
1342
2
原创 llama-factory的部署网页打不开
打开interface.py文件,路径为:LLaMA-Factory-main/src/llamafactory/webui/interface.py。从https://cdn-media.huggingface.co/frpc-gradio-0.2/frpc_linux_amd64下载文件。这部分主要参考:服务器使用llama-factory 无法在本地打开webui问题处理_llamafactory 本地访问-CSDN博客。注:第一个路径为文件当前路径,第二个为目标路径。
2025-04-21 09:00:00
1119
2
原创 langchain
LangChain is a framework for building LLM-powered applications. It helps you chain together interoperable components and third-party integrations to simplify AI application development — all while future-proofing decisions as the underlying technology evol
2025-04-21 09:00:00
283
原创 DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model
【代码】DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model。
2025-04-20 08:00:00
1000
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人