- 博客(584)
- 收藏
- 关注
原创 Devin 教你做 Agent:把 AI 当做需要指导的初级开发者
许多平台都支持将Agent与外部工具连接(在 Devin 中,这类功能被称为 MCPs [4])。但很多人忽略了另一个简单有效的方法:为Agent编写一些自定义的命令行(CLI)小工具。比如,你可以给它一个脚本,只需输入工单 ID 就能拉取该工单的详细信息。或者,为它提供一个能一键重启本地开发环境的工具,让它在搞乱环境后能自行恢复。
2025-07-08 11:23:01
465
原创 智能体技术解析:AI Agent快速入门手册
如何学习AI大模型?01引言你是否见过这样的场景?一段简单的指令输入,AI就能自动分析数据,撰写报告并发送邮件,像一位隐形助手般完成全套工作,比如最近比较火的AutoGPT,或者国内的Manus;在ChatGPT中安装“旅行规划”插件,只需要说“帮我订一个去杭州的机票和酒店”,那么他就会自动调用订票网站的接口,实时比价下单....这些看似科幻的背后,实际上是AI Agent(智能体)技术的爆发。为什么智能体可以像人类一样拆解任务,使用工具呢?初学者该如何上手呢?
2025-07-08 10:59:40
593
原创 5分钟读懂RAG的原理,让AI学会做笔记_秒懂 rag是什么
看完以上的介绍,有没有觉得更加清晰RAG到底是啥了。以后别人再问你,拍着胸脯说“这题我熟!不过以上讲的也就RAG的基础理解和用法,后续我还会考虑写写RAG的优化方法或实践,可以关注下我。
2025-07-04 11:39:46
983
原创 Agent做多模态RAG方案-MDocAgent及文档解析中的图像前处理问题
如何学习AI大模型?先来看多模态RAG进展,关于这块,已经在多模态RAG专题中介绍过很多了。其中提到最多的,就是,不过,从技术角度上讲,两者存在一定局限性。;,例如,在某些场景下或错误地得出“外国出生的拉丁裔人口更多”的结论;此外,标准的多模态RAG框架,,未能正确回答问题。因此,针对这个问题,一个很自然的方式,就是召回后,,所以,就搞个Agent?那么可以怎么玩?看一个工作。另外,说到文档处理,那么,。
2025-07-04 11:19:57
696
原创 超详细!使用 DeepSeek+Docker+Dify 搭建个人知识库
随着 DeepSeek 不断爆火,越来越多的个人和企业都在搭建属于自己行业或自己的私域知识库,那么我们应该怎么使用 DeepSeek 来搭建只属于自己的私域知识库呢,其实不难,就让我们来一探究竟。基于 DeepSeek 搭建个人私域知识库的流程图如下所示:图 1 DeepSeek 模型搭建层流程拆解图 2 知识库应用层流程拆解首先,我们来完成私域知识库需要的模型层的搭建工作。Ollama 的安装和 DeepSeek 模型的下载和使用。
2025-07-02 14:12:55
1346
原创 AI不只大模型?AI Agent到底有多强?
学术界和工业界对术语“AI Agent”提出了各种定义。其中,OpenAI将AI Agent定义为“
2025-07-02 11:40:43
598
原创 这个智能体能把PDF直接总结成PPT,基本不用咋改,确实太赞了!
最近收到很多后台留言,大家普遍关心的一个问题,就是现在有没有好用的智能体,能把PDF或Word总结出PPT,基本不用咋改动的。不少读者跟我反馈,他们在用的PDF转PPT总结,遇到的一些问题就是PPT中图片和文字搭配不太好,又得需要去找配图,还得花不少时间。这几天我通过查找不同平台,使用了不同家的智能体,今天这篇文章来系统解答下好用的PDF转PPT总结智能体,专门解决大家遇到的这些痛点,感兴趣的可以看看。1 效果展示先给大家看看,今天写这篇公众号时,我上传某个PDF文档转化成PPT的效果,传入一篇英文论文:然
2025-07-01 21:56:53
1358
原创 阿里国际发布:Ovis-U1 统一的多模态理解与生成模型
Ovis-U1在模型设计与训练策略上的创新,实现了多模态理解与多模态生成的统一,在技术突破的同时,显著提升了全球用户的体验与创作效率。
2025-07-01 21:51:24
950
原创 算力中心转型大模型应用,看这一篇就够了!
在人工智能的浪潮之巅,算力中心曾是资本市场最炙手可热的“黄金赛道”。然而,随着潮水逐渐回归理性,单纯依靠“囤积居奇”式的算力扩张故事,已经难以再次点燃投资者的热情。市场的风向正在转变,对于前瞻的算力中心而言,一场深刻的自我革命势在必行——,正成为一条更具想象空间、也更“性感”的新路线。曾几何时,拥有和建设大规模算力中心是科技实力的终极象征。市场普遍认为,在AI的“淘金热”中,卖“铲子”是稳赚不赔的生意。然而,任何单一维度的竞争最终都会走向同质化和价格战。:资本市场永远在追逐新的、高增长的故事。
2025-06-30 14:39:39
1041
原创 【转行大模型工程师笔记】02-GPT 大模型的能力突现
先说我的观点,能力突现(涌现)是噱头,初衷是为了强调当模型大了以后,表现出的“新能力”,而不是强调“模型就要100B参数,才能不知怎么的就突变了” 这样的玄学。近几年,NLP 的研究范式在慢慢走向通用和统一,即一个模型解决大部分问题(为了实现这样通用的智能,模型变得越来越大。GPT-3 后,一般人已经连面向下游具体任务的微调都要做不起了,于是模型结构的研究讨论变成了越来越小圈子的工作。因此我打算先梳理一下能力突现(涌现)相关的问题,讨论模型变大的必要性。本文主要围绕符尧大佬的文章。
2025-06-30 12:03:37
801
原创 谈谈GraphRAG 痛点——告别“黑盒”,实现精准检索与可控生成
这听起来可能有点“笨”,但却是最有效、最可控的方式。只有当我们对知识图谱的结构和内容有清晰的掌控时,它才能真正发挥价值。
2025-06-30 11:50:21
973
原创 周鸿祎:智能体 ≈ 带手脚的 AI(数字员工)
2025年将成为*人类与智能体共生关系的转折点,*诸多智能体的系统提示词已将其设定为“专家”或“顾问”角色,这种拟人化特征标志着*智能体正从“辅助工具”转变为“自主决策者”和“主动协作者”。智能体 vs 大模型*****什么是智能体(Agent)?****智能体是具备自主决策、任务分解、工具调用和多步执行能力的 AI 系统。*拥有 “数字手脚”,能像人类一样*任务分解、工具调用、自主执行*闭环操作。*二、任务分解 & 工具调用 & 自主执行*************
2025-06-27 11:44:24
538
原创 多模态大型语言模型,最新综述!
这项综述制了 MLLM 不断发展的格局,研究了transformer、扩散模型、SSL、MoE、RLHF 和 CoT 等基础技术如何扩展到不同的输出模式。虽然每种模式都带来了不同的挑战,但它们越来越多地共享底层架构和学习策略,这表明正在向通用生成系统趋同。一个关键的见解是方法论跨领域的高度可转移性。一种模式的进步,例如扩散模型在图像生成方面的成功,已经促进了其他模式的突破,包括视频合成和 3D 建模。同样,最初为文本任务设计的 MoE 和 CoT 等技术已被证明在视觉、运动和音频方面有效。
2025-06-27 11:32:34
1007
原创 AI 协作的未来?Anthropic 多智能体系统的实战设计
近日,Anthropic 发布了一篇重磅技术博客,详细介绍了他们如何从零构建一个多智能体支持的研究系统。Claude 现已具备研究能力,能够跨网络、谷歌工作空间及任何集成应用进行搜索,以完成复杂任务。通过解析这个多智能体系统从原型到产品的历程,博客分享了 Anthropic 在系统架构、工具设计和提示工程方面的重要经验。研究任务往往起始于模糊问题,随着信息的揭示逐步调整方向,本质上具有开放性和不可预测性,难以预设清晰路径或单一解决方案,因此模型在探索过程中必须具备高度的自主调整能力。多智能体系统通过任务分解
2025-06-24 14:56:22
943
原创 开源!基于大模型的视频监控系统,市场巨大,可以商业化
该开源项目通过将视觉大模型、多模态大模型和大语言模型无缝集成到现有视频监控系统中,构建了一个智能化的危险行为检测系统。其核心价值在于通过AI技术提升监控效率,减少人工干预,实现对危险行为的精准识别和快速响应。系统支持多种主流AI大模型的集成,包括YOLO系列、GPT-4V、Qwen-VL等,覆盖物体检测、场景理解、告警分析等多个环节。
2025-06-24 11:56:51
830
原创 只改2行代码,RAG效率暴涨30%!多种任务适用,可扩展至百亿级数据规模应用
只需修改两行代码,RAG向量检索效率暴涨30%!不仅适用于文搜文”、“图搜图”、“文搜图”、“推荐系统召回”多种任务;而且具备良好扩展性,适合十亿、百亿级别大规模应用。浙江大学高云君、柯翔宇团队联手向量检索领域大佬傅聪,开源新方法PSP(Proximity graph with Spherical Pathway),突破RAG两大难题。简单来说,主流向量检索方法都是基于欧几里得距离设计,主要看“谁离你最近”;但有时AI其实更需要比较“语义相关性”,也就是最大内积、看谁最相似。以往的内积检索办法,不能像欧式距
2025-06-23 14:07:51
896
原创 【Warp+Ollama+Dify】一文说透大模型本地部署和应用,小白也能上手
今天开始,即将给大家带来如何使用AI Agent 来完成我们日常工作和生活中的常见任务的分享。俗话说,。小白说人话,Warp帮你部署环境;Ollama大模型部署,dify工作流编排:如deepseek-r1,qwen3,Gemma3Warp不管是程序员还是非程序员,安装部署环境都不是一件容易的事情,除了要查找和记住不同的安装命令之外,各种环境的依赖,遇到问题的排查,都需要耗费大量的时间。本文将为大家推荐一个好用的AI命令行工具Warp。它由。
2025-06-23 13:58:29
1442
原创 小白学RAG:17种改进生成的落地方法
在测试中,该功能显著提高了检索质量。给你学习,我国在这方面的相关人才比较紧缺,大模型行业确实也需要更多的有志之士加入进来,我也真心希望帮助大家学好这门技术,如果日后有什么学习上的问题,欢迎找我交流,有技术上面的问题,我是很愿意去帮助大家的!通过实现反馈循环,可以持续提高检索文档的质量,增强生成响应的相关性,使系统随着时间的推移适应用户的偏好和需求。生成相关问题通过为每个文本片段生成各种相关问题,并将这些问题纳入向量数据库中,从而增强了标准的检索过程,提高了找到可作为生成式问答上下文的相关文档的可能性。
2025-06-18 11:41:53
948
原创 Devin CEO:别搞多智能体!Anthropic:我们性能提升90%!
那么,为什么Cognition觉得多智能体不行,Anthropic却用得飞起?感觉上,存在一个核心模式的差异。是 write 还是 read?read - 读。比如说信息搜集、研究、分析等。这类任务天然适合并行,让10个Agent同时去读10篇论文,互不干扰,最后汇总即可。write - 写。比如说代码生成、内容创作等。这类任务并行起来就非常困难。因为“写”的每一步都包含大量“隐性决策”(比如代码的架构、变量的命名),两个Agent并行写代码,决策一冲突,产出的东西就无法合并。
2025-06-18 11:32:24
623
原创 一篇文章说清楚AI三大核心技术:RAG、大模型、智能体
前阵子刷到一篇图解AI三大核心技术:RAG、大模型、智能体的文章,但是原图都是都是英文的,很多人看不懂。粉丝还把文章还转发给了我,所以我就硬着头皮用 AI 辅助翻译,并加了一些自己的理解,用中文给大家再普及一下AI三大核心技术:RAG、大模型、智能体的区别。原图翻译后的图原装引擎不动,只加小部件,成本低,效果好比LoRA更省钱,只调一半部件,效果稍微差一点但够用共用的喇叭设备,只调几个按钮,最省钱的方法今天换个零件,明天再换个零件,循序渐进,更稳定不同零件用不同的安装速度,训练更快,效果更好原图。
2025-06-16 14:32:21
1072
原创 一文搞懂大模型的协议(MCP和A2A)
**在人工智能技术迅猛发展的当下,大型语言模型(LLM)与外部世界的交互方式已成为决定其实际应用价值的核心要素。****大模型所采用的协议(例如MCP和A2A)作为推动AI应用生态互联互通的关键技术标准,正发挥着日益重要的作用。****MCP(Model-Context Protocol,模型上下文协议)和A2A(Agent-to-Agent,智能体到智能体)是大模型应用中两个至关重要的协议**。它们分别聚焦于智能体与外部工具的交互,以及智能体之间的协作,共同构建起大模型与外部世界紧密连接的桥梁。****一
2025-06-16 13:44:59
772
原创 如何用大模型自动生成PPT?AutoPresent及SlideCoder方案
我们来看文档智能进展,上次是paper2poster,这次是用来做ppt。从工程上来说,。通过这种方法,可以控制幻灯片的每一个细节,包括文本内容、图像、视觉布局、颜色等。但可以进一步自动化,例如很直观的做法,就是直接做大模型微调,核心在于,但是,简单微调,并不能捕捉细节信息,这也说明PPT生成并非易事,还需要做很多事情,难点还是有很多。例如,。想做好并不容易,所以,可以看看两个方案,有一些思路。
2025-06-13 10:17:32
887
原创 使用成本降至三分之一!字节大模型,重磅更新!
豆包大模型重磅升级,并推出创新性的“区间定价”模式,打响了一场平衡成本与性能的“价值战”。6月11日,字节跳动旗下火山引擎举办Force原动力大会。会上,豆包大模型家族全面升级,火山引擎发布了豆包大模型1.6、豆包视频生成模型Seedance 1.0 Pro、实时语音与播客等新模型,并升级了Agent(智能体)开发平台等AI云原生服务。除了主论坛外,本次大会还将举办多场从技术革新到行业场景落地的分论坛,涉及芯片、汽车、智能终端、软件应用等领域的众多企业合作伙伴。
2025-06-12 10:18:51
978
原创 涉及AI-Agent、大模型过度思考、多模态后训练、测试时扩展等热门研究
紧跟技术发展趋势,快速了解大模型最新动态。、金融CoT推理基准、、图推理归因分析、长文本推理能力提升、、大模型**「表格问答能力提升」**等热门研究。大型语言模型(LLMs)在众多任务上表现接近人类且能进行通用对话,但AI Agent系统多是让语言模型重复执行少量特定任务,变化较少。本文作者提出,并且在需要通用对话能力时,异构代理系统(调用多种不同模型的代理)是自然选择,还讨论了SLMs在代理型系统采用的潜在障碍并概述了从LLM到SLM代理的通用转换算法。
2025-06-10 13:53:22
846
原创 有医院已投入近千万元预算!谁在为AI医疗大模型买单?
今年上半年,医疗AI大模型成为各家医院争相布局的热门赛道。截至目前,包括上海中山、瑞金、仁济在内的头部三甲医院都高调发布了心血管、病理、泌尿科等不同疾病领域的AI模型,而为这些大模型提供软件和算力支持的企业也逐渐浮出水面。第一财经记者从采访中了解到,为AI医疗大模型买单的头部三甲医院并不多,而通过公开信息搜索,记者发现,动辄投入数百万元预算采购医疗大模型的大部分都为地方政府的采购项目。常州市第一人民医院已于今年上半年先后启动两项公开招标,采购AI医疗大模型平台,整体预算接近1000万人民币。
2025-06-10 13:42:46
679
原创 破解大模型推理谜团:AI“思考”的透明性与安全性
近年来,大语言模型(LLMs)如GPT-4、Claude等,展现了超凡的推理、写作和决策能力。但即便是其研发团队,也无法以人类可理解的方式解释“为什么模型会做出某个决定”。AI日益成为医疗、法律、金融等高风险领域的助力,其不透明的思维过程却带来巨大的安全与伦理挑战。本推文基于最新前沿文献,系统梳理了LLM推理的黑箱问题、模型涌现能力的争议、链式推理表达的“诚实度”、Transformer的推理机制与对齐干预、最新可解释性方法,以及对安全部署与合规的深远影响,帮助专业人士准确理解并安全利用AI。
2025-06-09 21:19:18
1116
原创 LoRA微调Qwen3 Embedding,效果炸裂~
最近 Qwen 又有大动作,发布 Qwen3 Embedding 系列模型,而且 MTEB 排行榜上获取多个第一,最重要的还是模型全系列开源。不得不说 Qwen 可能已经完成 rag(Retrieval-Augmented Generation)技术栈的大一统了。真香啊,接下来笔者会简单介绍一下 Qwen3 Embedding 系列模型,同时实战将 Qwen3 Embeding 的向量模型采用 lora 的方式微调成一个领域 Embeding 模型,让模型在这个领域的语义搜索性能进一步提升。
2025-06-09 21:13:07
950
原创 多智能体真不是概念股,github上top5多智能体框架总结!
gitbub上最火的5个多智能体框架MetaGPT、agno、ChatDev、owl、camel,截至今天star数分别为56.1k、27.7k、27.0k、16.8k、12.8k。每个都在1w star以上!试想,你只需输入一句“Create a 2048 game”,就能自动生成一个完整的游戏项目仓库,包含用户故事、代码架构、API文档等全流程产出。这不是科幻场景,而是MetaGPT的真实能力展示。(图示:MetaGPT模拟软件公司协作流程,从需求到代码的全链路产出)此外还可以构建AI狼人杀、AI辩论
2025-06-07 11:39:05
1039
原创 Llama3-8b大模型微调保姆级教程:手把手教你在本地部署自己私有化大模型!
给你学习,我国在这方面的相关人才比较紧缺,大模型行业确实也需要更多的有志之士加入进来,我也真心希望帮助大家学好这门技术,如果日后有什么学习上的问题,欢迎找我交流,有技术上面的问题,我是很愿意去帮助大家的!截至目前大模型已经超过200个,在大模型纵横的时代,不仅大模型技术越来越卷,就连大模型相关的岗位和面试也开始越来越卷了。光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战项目来学习。要学习一门新的技术,作为新手一定要先学习成长路线图,方向不对,努力白费。
2025-06-05 11:51:21
716
原创 “AI过时了,现在都在投Agent”
很多人对Agent的理解都是,知道,又不完全知道。所以这个被资本热捧的Agent到底是什么?“Agent”(智能代理)是人工智能和计算机科学领域的一个重要概念,它指的是一种能够自主感知环境并做出决策以实现特定目标的软件或系统。Agent可以根据其设计和应用场景,具有不同的功能和特性。Agent通常被定义为一个能够感知环境并通过执行动作来影响环境的实体。它具有自主性、社会能力、反应性和主动性等基本特征。自主性意味着Agent能够独立运行,无需外部干预即可做出决策。
2025-06-04 12:06:37
714
原创 一文搞懂多模态视觉-语言模型:Qwen2.5-VL
这背后的原因是什么?因为*现在的多模态视觉-语言模型(例如:Qwen2.5-VL)能很好地把图像和文字关联起来,图像直观且包含的信息量大,再加上模型经过大量图文数据的训练,还针对图像任务进行了优化,这正好符合咱们人类更习惯通过看图来理解的认知特点。*多模态视觉-语言模型*****
2025-06-04 11:58:38
1099
原创 AI|大模型入门(四):检索增强生成(RAG)
检索增强生成(Retrieval-Augmented Generation,RAG)是指对大型语言模型输出进行优化,使其能够在生成响应之前引用训练数据来源之外的权威知识库。大型语言模型(LLM)用海量数据进行训练,使用数十亿个参数为回答问题、翻译语言和完成句子等任务生成原始输出。在LLM本就强大的功能基础上,RAG将其扩展为能访问特定领域或组织的内部知识库,所有这些都无需重新训练模型。这是一种经济高效地改进LLM输出的方法,让它在各种情境下都能保持相关性、准确性和实用性。
2025-06-03 21:53:08
1042
原创 带你了解三种大模型的应用技术范式: Prompt、Agent、 RAG
大模型(LLM,Large Language model)是基于大量数据进行预训练的超大型深度学习模型。从2019年发展到现在,其能力已经得到了极大的提升,其中以OpenAI ChatGPT的发布为关键里程碑事件。技术上的突破致使基于大模型的应用层出不穷,诸如Chatgpt, 文心一言, ChatDoc, ChatPPT等。应用虽多,但是技术范式却不外乎提示词工程、Agent和RAG三种。是指在与LLM交互时,精心设计和优化输入(即提示词或问题)的过程,以获得更准确、更有用或更具创造性的回答。
2025-05-30 08:30:00
830
原创 一文带你速通RAG、知识库和LLM!
定制知识库是指一系列紧密关联且始终保持更新的知识集合,它构成了 RAG 的核心基础。这个知识库可以表现为一个结构化的数据库形态(比如:MySQL),也可以表现为一套非结构化的文档体系(比如:文件、图图片、音频、视频等),甚至可能是两者兼具的综合形式。
2025-05-28 11:27:32
769
原创 大模型入门到精通:概念解析与应用案例全览,一文掌握AI大模型落地实践!
这个大家应该都听说过,训练大模型,需要大量的GPU算卡资源。而且,每次训练,都需要很长的时间。根据公开的数据显示,训练GPT-3大约需要3640PFLOP·天(PetaFLOP·Days)。如果采用512张英伟达的A100 GPU(单卡算力195 TFLOPS),大约需要1个月的时间。训练过程中,有时候还会出现中断,实际时间会更长。总而言之,大模型就是一个虚拟的庞然大物,架构复杂、参数庞大、依赖海量数据,且非常烧钱。相比之下,参数较少(百万级以下)、层数较浅的模型,是小模型。
2025-05-28 10:56:32
711
原创 一文搞懂大模型的蒸馏(Distillation)
一、准备阶段******如何选择教师模型与学生模型**?*******如何**构建蒸馏数据集*****(1)数学推理:meta-math/GSM8K_zh*(中文数学题)********(2)通用问答:m-a-p/COIG-CQIA*(逻辑推理、生活场景)****(3)代码生成:HuggingFace BigCode*(编程问题与解决方案)********(4)科学知识:Haijian/Advanced-Math*(高阶数学证明)***
2025-05-27 19:07:09
1070
原创 0代码,5分钟,搭建出企业级文档处理MCP Agent
文档质量决定了大模型理解的上限。当你正在构建知识库或者搭建文档审核相关的Agent,可以考虑将TextIn MCP Server嵌入到你的搭建工作流中,成为你的文档处理引擎。
2025-05-27 18:06:01
604
原创 如何管理和调度Dify工作流?
概述Dify[1]是一款开源的大模型应用开发平台,可以通过可视化的画布拖拖拽拽快速构建AI Agent/工作流。Agent通常指能够自主决策、动态响应的智能体,比如聊天机器人、自动化客服等。工作流适合结构化、步骤明确、对输出内容和格式要求非常严谨的场景。本篇文章将介绍如何通过任务调度系统调度Dify工作流。开源Dify的痛点Dify专注于做大模型应用的开发和运行平台,不支持工作流的定时调度和监控报警。
2025-05-24 11:46:01
855
原创 最强编码模型Claude 4!7小时不间断写代码,连玩24小时宝可梦,GitHub已选为Copilot底层模型
功能,使用较小的模型来浓缩冗长的思考过程。不过只有大约 5%的情况下需要这种总结,大多数思维过程都很短,足以完整显示。内存能力方面,Claude Opus 4显著超越之前所有的模型。当开发者构建允许 Claude 访问本地文件的应用程序时,Opus 4 能够熟练地创建和维护“内存文件”来存储关键信息,以帮助改进游戏体验。这能够提升代理在长期任务中的感知能力、连贯性和执行性能——例如,Opus 4在玩宝可梦时能够创建“导航指南”。
2025-05-23 11:53:03
930
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人