
大模型
文章平均质量分 86
致Great
为将之道,当先治心
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Agent实战教程:LangGraph结构化输出详解,让智能体返回格式化数据
本文介绍了LangGraph中的结构化输出功能,重点解析了.with_structured_output()方法的使用。通过对比非结构化文本输出,阐述了结构化输出(如JSON、字典等)在AI开发中的优势,包括提高系统可靠性和可维护性。文章详细展示了三种实现结构化输出的方式:使用Pydantic类进行类型验证、通过TypedDict定义模式、以及直接使用JSON Schema。最后提供了一个完整的LangGraph工作流示例,演示如何将结构化输出整合到实际应用中,包括文本分析节点的实现和测试用例。这些技术能有原创 2025-08-30 23:49:10 · 462 阅读 · 0 评论 -
DeepSeek V3.1悄然发布,编程能力再获突破
DeepSeek最新发布了V3.1版本,这款685亿参数的模型在没有详细说明文档的情况下,迅速登上Hugging Face热门榜第四位。DeepSeek V3.1的发布为AI开发者提供了新的选择,其开源策略和相对较低的使用成本(约1美元)为更多用户降低了AI应用的门槛。新版本支持多种数据格式(BF16、F8_E4M3、F32),提供了更长的上下文窗口,能够处理更复杂的任务场景。在最新的aider测试中,DeepSeek V3.1取得了71.6%的成绩,创下非推理模型的最佳记录。下面是token对应的id。原创 2025-08-20 15:31:49 · 355 阅读 · 0 评论 -
GPT-5正式发布!OpenAI目前最强推理模型
体验下来,GPT-5确实是一个质的飞跃。不管是思考能力、专业知识,还是交流的自然度,都有很大提升。对于我们这些重度AI用户来说,这次升级绝对值得期待。如果还没试过,建议赶紧去体验一下,相信会有惊喜的!原创 2025-08-08 06:46:13 · 936 阅读 · 0 评论 -
OpenAI 开源GPT OSS系列模型
在AI发展的历程中,开源与闭源模型之间的竞争一直备受关注。就在近期,OpenAI发布了GPT OSS系列模型,这是自GPT-2以来该公司首次发布的开源大语言模型,标志着OpenAI在开源生态中迈出了重要一步。原创 2025-08-06 10:19:44 · 933 阅读 · 0 评论 -
全新开源图像生成模型 Qwen-Image 震撼登场,技术报告解读!
Qwen-Image的成功并非偶然,它是先进模型架构、极致数据工程、智能化训练策略以及创新多任务范式协同作用的结晶。通过将Qwen2.5-VL的强大理解力、特制VAE的精细还原力以及MMDiT与MSRoPE的精准生成力相结合,并辅以一套从数据收集、过滤、合成到渐进式训练的完整流程,Qwen-Image最终在文生图领域,特别是中英文文字渲染和图像编辑两大核心挑战上,树立了新的标杆。它不仅为用户带来了更高质量的AIGC体验,也为未来多模态大模型的发展指明了新的方向。原创 2025-08-05 11:21:45 · 1402 阅读 · 0 评论 -
腾讯混元重磅开源:四款小尺寸模型全面发布
这些模型专门针对消费级显卡进行优化设计,完美适配笔记本电脑、手机、智能座舱、智能家居等低功耗应用场景,同时支持垂直领域的低成本微调需求。目前,四款新模型已全面上线GitHub和Hugging Face等主流开源社区平台,并获得了Arm、高通、Intel、联发科等多个消费级终端芯片平台的官方支持。在语言理解、数学计算、逻辑推理等核心领域,这些模型均展现出色的能力水平,在多个公开测试集上的评分达到了行业领先标准。四款模型均支持单卡部署方案,部分PC、手机、平板等设备可直接接入使用,大幅降低了部署门槛。原创 2025-08-04 23:37:38 · 1121 阅读 · 0 评论 -
Nvidia团队最新研究:小型语言模型才是智能体AI的未来之路
小型语言模型成为智能体AI未来的观点,初看可能与直觉相悖,但深入分析后却显示出强有力的逻辑支撑。随着模型架构的不断改进、训练方法的持续优化以及部署技术的日益成熟,我们有理由相信,未来的智能体系统将是一个由众多专门化小型模型构成的高效生态系统,而非几个通用大型模型的简单堆砌。这种转变的意义不仅在于技术进步,更在于它代表了AI发展思路的根本性转变:从追求单一模型的最大化能力,转向构建专门化、模块化、可持续的智能系统。这或许才是人工智能真正走向成熟和普及的标志。原创 2025-08-04 23:13:42 · 811 阅读 · 0 评论 -
大型语言模型幻觉检测相关综述_0721
代码摘要中的幻觉检测面临一项重要挑战,即编程语言与自然语言之间复杂的交互关系。随着大型语言模型(LLMs)在理解这两个领域的任务中变得越来越熟练,它们的输出往往容易出现幻觉——即生成的摘要偏离实际代码逻辑或引入虚假信息。这一问题尤为复杂,因为它涉及双重任务:准确解读代码的技术语义,同时将其清晰地表达为自然语言。这一挑战进一步加剧的原因在于LLMs可能会根据标识符名称错误地解释代码实体,或者缺乏对特定构造的知识,特别是在低资源编程语言中。原创 2025-07-24 14:29:57 · 699 阅读 · 0 评论 -
必读好文:主流大模型架构深度对比,涵盖 Llama、Qwen、DeepSeek 等六大模型
总而言之,DeepSeek-V3 是一个拥有 6710 亿参数的大型模型,发布时其性能超越了包括 4050 亿参数的 Llama3 在内的其他开源模型。尽管体量更大,但得益于其专家混合(MoE)架构,它在推理时效率更高,因为每个词元仅激活一小部分(仅 370 亿)参数。另一个关键的显著特征是 DeepSeek-V3 采用了多头潜在注意力 (MLA) 而非分组查询注意力 (GQA)。MLA 和 GQA 都是标准多头注意力(MHA)的推理高效替代方案,尤其是在使用 KV 缓存时。原创 2025-07-21 23:36:13 · 1605 阅读 · 0 评论 -
Kimi K2智能体能力的技术突破:大规模数据合成 + 通用强化学习
Kimi K2:开放的智能体AI时代来了Kimi K2 是最新发布的混合专家模型,拥有 320 亿激活参数和 1 万亿总参数。在前沿知识、数学和编程领域,它在非思维链模型中达到了最先进的性能。不过更厉害的是,Kimi K2 专门针对智能体任务进行了精心优化,它不只是回答问题,而是真正能够行动。原创 2025-07-14 22:42:00 · 966 阅读 · 0 评论 -
HuggingFace重磅开源SmolLM3:小巧、多语言、长上下文推理模型,技术报告解读!
SmolLM3:小巧、多语言、长上下文推理模型小型语言模型正变得日益重要,用户寻求功能强大且能高效部署的模型。社区已经涌现出许多出色的小型模型,它们不断突破该规模模型能力的界限。HF的 30 亿参数模型性能超越了 Llama-3.2-3B 和 Qwen2.5-3B,同时与更大的 40 亿参数模型(Qwen3 & Gemma3)保持了竞争力。除了性能数据,HF还精确分享了如何使用公共数据集和开源训练框架构建该模型。/think/no_thinkHF发布 SmolLM3 的同时也提供了完整的工程蓝图。原创 2025-07-10 18:36:49 · 1234 阅读 · 0 评论 -
大型语言模型幻觉检测相关综述
本综述对大型语言模型(LLMs)幻觉检测领域的关键数据集进行了系统性的梳理与分析。我们全面回顾了81个相关数据集,并基于其核心任务与评估目标,构建了一个包含四大类别——事实核查数据集、问答数据集、多模态幻觉检测数据集和专项幻觉基准——的分类体系。此项工作不仅为研究者提供了一份该领域的详尽资源地图,更重要的是,通过深入剖析各类数据集的设计理念、任务类型、评测指标和局限性,揭示了当前幻觉检测研究的现状、核心挑战与技术演进脉络。原创 2025-07-02 18:33:15 · 1206 阅读 · 0 评论 -
迈向 AI 搜索范式:从AI搜索、多模态推荐到零样本混合检索器
从这些研究工作中可以看出,信息检索领域正在朝着更加智能化、多模态化和实用化的方向发展。无论是多智能体的搜索系统、混合检索方法,还是各种效率优化技术,都在试图解决实际应用中遇到的具体问题。特别值得注意的是,很多工作都在探索如何更好地结合不同技术的优势,而不是简单地追求单一方法的极致。这种融合的思路在实际应用中往往更有价值,因为真实世界的问题往往是多方面的,需要综合性的解决方案。随着大语言模型技术的不断发展,我相信信息检索和推荐系统会变得更加智能和个性化。原创 2025-06-30 11:38:13 · 1117 阅读 · 0 评论 -
文心大模型4.5系列模型正式开源
下面是ERNIE 4.5 Turbo性能,不过是4.25日的数据。原创 2025-06-30 10:37:15 · 211 阅读 · 0 评论 -
强化学习如何让DeepResearch变得更聪明?深度解析Kimi-Researcher的训练秘密
端到端训练比传统的模块化方法更有优势,能整体优化所有技能数据合成解决了高质量训练数据稀缺的问题基础设施优化是大规模强化学习训练的关键奖励机制设计需要平衡多个目标,既要保证正确性,又要提高效率这种训练方式最大的价值在于,它能让智能体自然地学会复杂的推理和工具使用能力,而不需要人工设计复杂的规则和工作流。从8.6%到26.9%的提升幅度也说明,强化学习在智能体训练中确实有巨大潜力。笔者最近看到一个帖子,也讨论针对DeepResearch强化学习训练的思路:从这些讨论中可以看出,原创 2025-06-23 17:58:59 · 1268 阅读 · 0 评论 -
Doc2X:⾼精度、⾼性价⽐⽂档解析 API,助力Arxiv论文智能解读Agent构建
在AI大模型时代,RAG(Retrieval-Augmented Generation)检索增强生成技术已经成为构建智能知识库和问答系统的核心架构。如何高质量地将各种格式的文档转换为结构化数据,以便后续的向量化和检索。传统的文档解析方案存在诸多局限性:开源工具精度不足,商业化产品价格昂贵,复杂文档(特别是包含公式、图表的学术文档)解析效果差强人意。正是在这样的背景下,Doc2X应运而生,为开发者提供了一个高精度、高性价比的文档解析解决方案。原创 2025-06-17 23:17:48 · 1281 阅读 · 0 评论 -
基于最新豆包大模型1.6实现 ArXiv Paper Reading MCP与Agent构建
火山引擎AI云原生的核心在于打造了全新的Agent开发范式:“模型能力 × AI开发平台”,通过强大的模型底座与智能化开发工具的深度融合,为开发者提供端到端的AI应用构建解决方案。在模型层面,豆包大模型1.6系列展现出卓越的综合能力。其中,Doubao-Seed-1.6-thinking在深度思考方面实现突破性提升,在编程、数学、逻辑推理等核心能力上全面增强,并新增视觉理解能力;原创 2025-06-17 23:17:28 · 1625 阅读 · 0 评论 -
MiniMax-M1强化学习算法CISPO解读:解决强化学习中的token裁剪问题
在大语言模型的强化学习训练中,PPO(Proximal Policy Optimization)一直是主流方法。对于数据集 D\mathcal{D}D 中的问题 qqq,PPO通过策略模型 π\piπ (参数为 θ\thetaθ)生成回答 ooo,其目标函数如下:JPPO(θ)=Eq∼D,oi∼πθold(⋅∣q)\mathcal{J}_{\text{PPO}}(\theta) = \mathbb{E}_{q \sim \mathcal{D}, o_i \sim \pi_{\theta_{\text{old原创 2025-06-17 17:41:11 · 1269 阅读 · 0 评论 -
MiniMax-M1技术报告关键技术点解读,当前世界上最长上下文窗口的大模型开源了!
MiniMax-M1是世界首个开源的大规模混合注意力推理模型,核心目标是解决大模型"推理时计算量爆炸"的问题。它基于团队之前的MiniMax-Text-01模型(4560亿参数,每token激活459亿参数),加入了Lightning Attention(闪电注意力)机制,能原生支持100万token的输入上下文(是DeepSeek R1的8倍),同时推理时的计算量(FLOPs)大幅降低——比如生成10万token时,比DeepSeek R1少用25%的计算资源。原创 2025-06-17 17:20:32 · 754 阅读 · 0 评论 -
Qwen3-Embedding技术报告解读
综上所述,Qwen3 Embedding 的工作不仅吸取了前人的经验,更在数据生成、训练策略和模型融合等方面进行了创新,显著推动了文本嵌入和重排序领域的发展。总而言之,Qwen3 Embedding 系列模型代表了基于基础模型在文本嵌入和重排序领域的重要进步,为自然语言处理和信息检索应用提供了强大而灵活的解决方案。该论文在引言和相关章节中提及了文本嵌入和重排序领域的多个重要研究方向和模型。:不仅提供了嵌入模型,还提供了重排序模型,并公开了不同尺寸的模型,促进了社区的研究和应用。原创 2025-06-10 14:59:35 · 959 阅读 · 0 评论 -
Gemini开源项目DeepResearch:基于LangGraph的智能研究代理技术原理与实现
在人工智能快速发展的今天,如何构建一个能够进行深度研究、自主学习和迭代优化的AI系统成为了技术前沿的重要课题。Gemini开源的DeepResearch一周收获7.9k Star,Google的开源项目Gemini DeepResearch技术通过结合LangGraph框架和Gemini大语言模型,实现了一个具备自主研究能力的智能代理系统。Gemini DeepResearch采用了基于状态图(StateGraph)的多节点协作架构,通过LangGraph框架实现了一个完整的研究工作流。原创 2025-06-05 21:55:07 · 1246 阅读 · 0 评论 -
仅靠大模型充当评估者救不了产品,关键在于优化流程
我们从评估一个基线(比如一个简单的提示词)开始,获得初步的基准。一些人认为,只要增加新的评估工具、指标,甚至是让大模型(LLM)充当评估者(LLM-as-judge),就能解决问题、挽救产品。EDD遵循相同的理念:在开发一个AI功能之前,我们首先通过产品评估来定义成功的标准,确保从一开始就目标明确且可衡量。通过查看检索到的文档、推理轨迹和错误的输出等数据,我们可以优先确定要修复的失败类型和要验证的假设。通过这种迭代循环,产品评估成为了推动数据飞轮的动力,不断改进我们的产品,减少缺陷,赢得用户信任。原创 2025-06-03 23:20:26 · 940 阅读 · 0 评论 -
突破长文本推理难题!阿里推出QwenLong-L1,32B参数就能媲美Claude,还开源了!
大家好,今天要和大家聊一个相当炸裂的新模型 —— 阿里通义智问团队刚刚发布的QwenLong-L1。这个模型有多厉害?32B参数量就能干翻OpenAI o3-mini,和Claude-3.5-Sonnet平起平坐,关键还开源的!原创 2025-05-27 23:18:27 · 1251 阅读 · 0 评论 -
xAI 把 Grok 的系统提示词全部公开了,我们看看DeepResearch的系统提示词怎么设计的?
xAI公司决定将Grok的系统提示词(System Prompt)公开发布在GitHub上,这一举措源于Grok在X平台上的自动回复机器人系统提示词被篡改,导致机器人对敏感话题做出了违反规则的回复。公开的系统提示词包括对话和深度研究等模块,旨在提高透明度和用户信任。Grok 3的深度研究提示词设计强调身份定义、回答框架、语言表达、引用管理、特殊情况处理、定制化扩展和质量保证机制。通过公开这些提示词,xAI希望用户能更好地理解Grok的工作原理,并确保其回答的准确性和合规性。原创 2025-05-17 23:37:52 · 838 阅读 · 0 评论 -
Qwen3如何强化推理能力?
系统性胜于单点突破:推理能力提升需要从预训练到微调的全流程设计数据质量胜于数量:严格的筛选和针对性训练比简单堆叠数据更有效框架先行,能力跟进:先构建基础推理模式,再针对性强化用户控制的平衡:思考/非思考模式融合为用户提供了控制推理深度的能力全面能力不可偏废:即使专注推理能力,也需要通过通用强化学习保持整体平衡Qwen3的推理能力提升不只是技术细节的累积,更体现了对大模型能力培养的系统性思考。这种"六步进阶法"或许能为更多大模型的推理能力提升提供有益参考。原创 2025-05-14 16:48:38 · 849 阅读 · 0 评论 -
如何微调推理大模型?以Qwen3/DeepSeek-R1为例
首先先简单介绍下两个系列的模型:DeepSeek-R1是由深度求索公司推出的首款推理模型,该模型在数学、代码和推理任务上的表现优异。深度求索不仅开源了DeepSeek-R1模型,还发布了从DeepSeek-R1基于Llama和Qwen蒸馏而来的六个密集模型,在各项基准测试中均表现出色。本文以蒸馏模型DeepSeek-R1-Distill-Qwen-7B为例,为您介绍如何微调该系列模型。Qwen3是阿里云通义千问团队于2025年4月29日发布的最新大型语言模型系列,包含2个MoE模型和6个Dense模型。原创 2025-05-13 13:52:52 · 1069 阅读 · 0 评论 -
聊一聊Qwen3思考模式实现以及背后原理探讨
混合推理模型已经有不少了,例如 Claude 3.7 Sonnet 和 Gemini 2.5 Flash, Qwen3 应该是开源且效果好的典例。未来这可能也是一个趋势,不需要特意区分普通模型和思考模型,而是同一个模型按需使用。原创 2025-05-07 22:48:15 · 3025 阅读 · 0 评论 -
10 种最新的思维链(Chain-of-Thought, CoT)增强方法
提出一种自适应混合推理模型 AdaR1,结合长链推理(Long-CoT)与短链推理(Short-CoT),并通过双层优化策略自动选择更有效的推理路径。针对非主流语言任务,该方法将语音翻译与推理链整合,采用半隐式CoT机制压缩中间步骤,有效提升非核心语言的响应准确率(最高可达45%)。SCoT 通过轻量模型并行预测多个推理路径,筛选后再由主模型修正,大幅降低延迟(可达48%–66%),提升推理效率。该方法将推理过程划分为多个可编辑模块,用户可以逐步查看、修改并重新运行推理,适配不同用户的认知风格和目标。原创 2025-05-05 23:56:52 · 711 阅读 · 0 评论 -
告别碎片化!两大先进分块技术如何提升RAG的语义连贯性?
研究领域:检索增强生成(Retrieval-Augmented Generation, RAG)系统,结合自然语言处理(NLP)与信息检索技术。重要性RAG通过动态整合外部知识,解决了传统大语言模型(LLMs)依赖静态预训练数据的局限性。在开放域问答、实时信息生成等场景中,RAG能显著提升生成内容的准确性和信息完整性。对知识密集型任务(如医疗问答、法律分析)至关重要,需高效管理大规模外部文档。原创 2025-04-29 23:11:55 · 616 阅读 · 0 评论 -
Qwen3 系列的后训练技术
阿里今日推出新一代开源大模型Qwen3系列,在代码、数学、通用能力等基准测试中达到顶级模型水平(如DeepSeek-R1、o1、Grok-3等)。原创 2025-04-29 13:39:07 · 749 阅读 · 0 评论 -
你敢信!LoRA也能训练出强大的推理模型——Tina让小模型“智商爆表“
Tina: 低成本高效的推理能力小型语言模型在大模型时代,人们常认为只有参数量庞大的语言模型才能具备强大的推理能力。然而,一项名为Tina(Tiny Reasoning Models via LoRA)的研究颠覆了这一观念:通过巧妙运用LoRA技术,研究团队用不到10美元的训练成本,让一个仅有1.5B参数的小模型在推理能力上媲美甚至超越了同类全参数训练的最先进模型!这一惊人成果不禁让人发问:推理能力的提升真的需要消耗大量计算资源吗?原创 2025-04-24 11:24:20 · 879 阅读 · 0 评论 -
检索增强生成(RAG)的最新发展:一文汇总11种新型RAG算法!
RAG技术通过将外部知识融入大型语言模型(LLM)的生成过程,极大地提高了AI系统的事实准确性和可靠性。如今,RAG正向更具智能性和自主性的方向发展,能够处理像超图这样的复杂结构,并适应各种专业领域的需求。这11种新型RAG技术代表了当前研究的前沿,它们不仅提高了AI系统的事实准确性,还扩展了这些系统处理复杂任务的能力范围。随着技术的不断进步,我们可以期待RAG系统在准确性、效率和适应性方面取得更大的突破,为人工智能的发展开辟新的可能性。本文将介绍11种最新的RAG类型,展示这一技术领域的创新前沿。原创 2025-04-21 22:42:23 · 714 阅读 · 0 评论 -
强化学习框架verl源码学习-快速上手之如何跑通PPO算法
GSM8K(Grade School Math 8K)是一个包含8,500个高质量、语言多样的小学数学文字问题的数据集。该数据集旨在支持需要多步推理的基础数学问题解答任务。原创 2025-04-21 17:04:19 · 2821 阅读 · 0 评论 -
Agent系列教程01-什么是Agent?当今为什么这么重要?
它们可以动态地处理边缘情况 —— 例如,如果分析 Agent 发现数据质量问题,它可以要求准备 Agent 进行特定的清理,或者如果可视化 Agent 识别出有趣的模式,它可以建议进行额外的分析以进一步探索。这不再仅仅是拥有一个可以提供建议的顾问与拥有一个可以帮助完成工作的同事之间的区别 —— 这就像拥有一个由专家组成的完整团队,代表你无缝地协同工作。AI Agent 自主和协作运行的能力,需要开发和采用标准化的通信协议,以确保无缝的互操作性,并创建复杂的多 Agent 系统。原创 2025-04-11 23:22:56 · 1184 阅读 · 0 评论 -
怎么构造思维链数据?思维链提示工程的五大原则
我来为您翻译这篇关于思维链提示工程的文章,采用通俗易懂的中文表达:思维链(CoT)提示工程是生成式AI(GenAI)中一种强大的方法,它能让模型通过逐步推理来解决复杂任务。通过构建引导模型思考过程的提示,思维链能提高输出的准确性、连贯性和可靠性。本白皮书探讨了思维链提示工程的核心设计原则,提供实用案例,并概述了在各种应用中有效实施思维链的策略。生成式AI系统越来越多地用于需要逻辑推理、多步骤问题解决和上下文理解的任务。传统的提示方法往往导致输出缺乏深度或无法满足任务的复杂性。原创 2025-04-09 23:15:48 · 1016 阅读 · 0 评论 -
推理模型不一定说的是真话:关于大模型“思维链”的隐藏真相
打个比方:你在考试,答题后写了解题思路。如果你真的是参考了书上的提示、或者你其实对这个知识点不太懂,那你在解释时也应该说出来。这才是“真实”的解释。对于AI来说,一条“真实”的思维链,应该是诚实地说明它是怎么一步步做出决定的,用了什么信息、参考了哪些内容。不是编的,不是事后找个借口来解释。原创 2025-04-07 15:39:06 · 493 阅读 · 0 评论 -
大模型背景下智能体、工具、函数和MCP傻傻分不清?
智能体是利用大模型执行任务的AI系统。它们通过自然语言理解用户需求,并规划任务执行步骤。例如,一个智能体可能被要求“安排下周二下午2点的会议”。为了完成此任务,智能体需要与外部工具交互,获取日历信息或创建事件。智能体通常依赖大模型来处理复杂任务,并通过标准接口(如MCP)调用外部工具。工具是提供特定功能的外部资源或服务。例如,日历工具可以管理预约,文件工具可以读写文档。函数是工具的具体操作,类似于方法或API端点。原创 2025-04-03 17:47:20 · 1089 阅读 · 0 评论 -
AI老板心中的迈巴赫:DeepSeek+Ollama+Xinference+RAGFlow+Dify部署教程,RAG产品化体验5件套
DeepSeek-R1火了之后,Ai老板部署需求大大提升,抛开效果不谈,五件套易用性和灵活性相比VLLM大大提升,门槛较低,但是效果不言而喻。以下部署全部以docker方式进行,因为太方便了,但同时坑很多,请做好心理准备喜欢折腾的同学可以按照下面教程进行部署,我也是被逼无奈请杯子里面装满水,原地坐牢,不出意外的话就马上出意外了,一个BUG一支烟。原创 2025-03-21 22:51:42 · 1208 阅读 · 0 评论 -
为什么 RAG 会失败以及如何解决?揭秘背后三大致命缺陷!
RAG(检索增强生成)它把检索系统和生成式 AI 结合起来,让 AI 回答得更准确、更贴合上下文。和普通的大语言模型(LLM)不同,RAG 不只是依赖训练时学到的知识,而是能实时从外部信息源查找内容,并用这些信息来生成更可靠的回答。RAG 的核心组成负责从外部数据源提取相关信息,确保 AI 的回答既准确又及时。检索做得好,AI 的输出质量就高;如果检索设计不合理,可能会导致无关答案、幻觉(AI 瞎编)或数据缺失。由大语言模型(LLM)来处理用户提问,并结合检索到的内容生成回答。原创 2025-03-21 22:22:47 · 1002 阅读 · 0 评论 -
推理大模型的后训练增强技术-如何系统地理解和提升长思维链推理能力
最近,基于大型语言模型(RLLMs)的推理能力取得了显著进展,例如OpenAI的O1和DeepSeek的R1,它们在数学、编程等复杂领域展现了强大的能力。然而,尽管已有这些突破,关于长链思维的全面综述仍然匮乏,这也限制了对其与传统短链思维(Short CoT)区别的理解,并使得“过度思考”和“测试时扩展性”等问题的讨论变得复杂。接着,探讨了长链思维的关键特征:深度推理、广泛探索和可行反思,这些特征使得模型能够处理更复杂的任务,且相比较浅的短链思维,能够生成更加高效、连贯的结果。原创 2025-03-18 17:22:37 · 1016 阅读 · 0 评论