自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(164)
  • 收藏
  • 关注

原创 你有关注最新的词嵌入模型吗?Qwen3 Embedding与 BGE 有什么区别?

Encoder 架构的训练方式是 Mask 猜词与相似度计算。而Qwen3 词嵌入模型采用多阶段训练与合并结果,让模型效果更上一层楼。

2025-07-12 11:54:32 400

原创 模型量化是什么?模型量化有什么作用?

模型量化是一种将深度学习模型从高精度浮点数转换为低比特整数表示的技术,旨在减少模型体积、提升推理速度并降低资源消耗。其核心原理是通过线性量化公式将浮点数值映射为离散整数,利用缩放因子和偏移量实现数值转换,同时通过反量化还原近似值。量化技术能显著压缩模型体积(如FP32转INT4可减少87.5%显存)、加速整数运算并降低部署成本,但会引入微小精度损失。当前主流方法包括激活感知量化(AWQ)和后训练量化(GPTQ)。随着AI大模型快速发展(国内超10亿参数模型已破百个),掌握量化等关键技术成为进入AI领域的重要

2025-07-11 19:48:59 841

原创 多模态预训练模型CLIP是什么?CLIP有什么用?

摘要:CLIP是由OpenAI开发的多模态预训练模型,通过对比学习将图像和文本映射到共享的嵌入空间,使语义相近的内容向量距离更近。它由图像编码器(ResNet/ViT)和文本编码器(Transformer)组成,使用InfoNCE损失优化图文匹配。CLIP可直接应用于图文检索、零样本分类,或作为特征提取器支持扩散模型(如Stable Diffusion)和多模态大模型(如LLaVA)。其训练基于4亿组图文对,实现了跨模态语义对齐。AI大模型领域发展迅速,学习相关技术可抓住新兴行业机遇。

2025-07-10 16:51:59 876

原创 世界模型是什么?世界模型和大模型有什么区别?它是怎么工作的?

李飞飞的World Labs融资2.3亿美元引爆AI圈,世界模型技术成为新风口,谷歌、英伟达等巨头纷纷布局。世界模型通过模拟物理规律和环境变化,赋予AI"脑内推演"能力,区别于传统大模型的数据驱动模式。该技术已在自动驾驶、机器人控制和科研仿真等领域展现潜力。随着AI行业快速发展,预计2025年人才缺口将达1000万,掌握世界模型等前沿技术将成为职业新机遇。

2025-07-09 14:56:37 982

原创 AI大模型的CUDA是什么?CUDA的运行机制是什么?

CUDA是由NVIDIA开发的并行计算平台,通过GPU加速通用计算任务,特别适合深度学习、科学模拟等数据并行处理。其核心架构包括主机(CPU)和设备(GPU)协同工作,采用线程块网格模型实现大规模并行计算。CUDA提供专用编译器、运行时库和加速工具(如cuBLAS、cuDNN),并与PyTorch等框架深度集成,使开发者无需直接编写底层代码即可利用GPU加速。随着AI大模型的快速发展,掌握CUDA等GPU计算技术成为进入AI领域的关键技能之一。文章还提供了AI大模型学习资源链接,帮助读者从零开始系统学习。

2025-07-08 15:38:05 641

原创 为什么LLM推理要分成Prefill和Decode两个阶段?

大语言模型推理过程分为Prefill和Decode两个阶段:Prefill阶段并行处理完整输入prompt,建立KV缓存;Decode阶段串行生成输出token,利用缓存加速。这种划分源于输入输出的本质差异——输入可并行计算,输出需串行推理。Prefill阶段计算密集,GPU利用率高;Decode阶段内存带宽受限,访问历史缓存成为瓶颈。拆分两阶段可针对性优化,如Prefill使用FlashAttention加速,Decode采用KV缓存提升效率。随着AI大模型快速发展,掌握其工作原理对把握技术趋势具有重要意

2025-07-07 11:38:37 802

原创 大语言模型LLM底层技术原理到底是什么?大型语言模型如何工作?

摘要: 大型语言模型(LLM)是基于海量数据训练的AI系统,擅长语言理解和生成。其核心原理包括:1)将单词转化为向量(词向量),通过数学运算捕捉语义关联;2)使用多层Transformer结构逐级解析句子,预测后续内容;3)通过大规模训练优化参数(如GPT-3含1750亿参数)。关键技术涉及词向量表示、上下文语义建模及Transformer架构,模型通过注意力机制动态调整词汇关联。LLM的突破性表现源于超大规模训练(如GPT-3训练5000亿单词),远超人类语言接触量。当前AI领域人才缺口显著,系统学习LL

2025-07-04 14:17:21 551

原创 怎么样才能通俗易懂的理解什么是RAG?以及RAG的工作原理?

摘要: RAG(检索增强生成)技术通过先检索相关资料再生成答案,弥补了大模型在上下文长度、知识时效性和专业领域上的不足。其核心流程包括文本分块、向量化、构建索引、检索和重排序等步骤。向量数据库支持语义匹配,提升了检索效率。尽管RAG存在分块难度高、理解偏差等问题,但广泛应用于企业知识问答、代码助手和故障诊断等场景。AI大模型发展迅速,2025年人才缺口预计达1000万,学习大模型技术成为新兴行业的机遇。

2025-07-03 17:27:02 992

原创 视觉大模型VLM到底需要什么样的数据?这些数据又是怎么来的?

视觉-语言大模型(VLM)的核心竞争力在于数据质量与多样性。文章系统剖析了VLM所需的数据类型:通用图文对、OCR文本识别、视觉定位与计数、3D空间理解、视频及GUI界面数据等五大维度。重点介绍了数据获取与优化的五大方法论:互联网数据爬取清洗、自动标注技术降低人工成本、数据增强提升模型鲁棒性、任务导向型数据构造,以及利用LLM合成高质量训练数据。文章强调,VLM的能力边界本质上由数据体系决定,构建多模态、多任务、多推理链的智能数据生态是提升模型性能的关键。随着AI技术快速发展,掌握数据工程能力将成为大模型领

2025-07-02 15:26:16 712

原创 预训练模型(BERT)是什么?是基于Transformer的双向编码器吗?

摘要: BERT作为预训练语言模型,基于多层Transformer编码器实现文本双向特征提取。其输入层整合Token、Segment和Position三重嵌入机制,通过自注意力结构与任务适配输出层支持多样化NLP任务。核心预训练采用掩码语言模型(MLM)和下一句预测(NSP)任务,学习深层语义与句间关系。微调阶段针对分类、问答等任务调整输出层,展现强大迁移能力。当前AI大模型人才缺口显著,系统化学习资源为从业者提供转型机遇。(150字) 关键词: BERT、Transformer、预训练、微调、NLP

2025-07-01 20:40:05 803

原创 一文说清:MCP 的9种架构设计模式剖析

MCP作为AI应用的通用接口标准,通过统一协议简化了系统集成复杂度,将传统的M×N连接问题转化为M+N模式。文章详细解析了9种MCP架构设计模式,包括本地化客户端、多智能体协同、语音交互、数据合成生成等典型应用场景,并针对不同业务需求提出了选型建议:数据密集型业务推荐Agentic RAG模式,交互型业务适合语音或共享内存模式等。最后指出AI大模型领域存在巨大人才缺口,强调把握技术风口的重要性。这些架构模式为AI系统集成提供了标准化解决方案,显著提升了开发效率和系统性能。

2025-06-30 23:29:58 632

原创 这是一篇写给想入行AI大模型新手的建议和分享,刷到少走几年弯路!干货满满!

随着AI大模型技术爆发式发展,行业对相关人才需求激增。本文针对学生和转行者提出四大职业方向建议:1)数据工程(数据处理/清洗);2)平台开发(分布式训练/工程基建);3)算法应用(对话机器人/AIGC);4)模型部署(推理加速/端智能)。作者特别指出,新人不宜盲目追求算法岗位,建议根据自身背景选择切入点:工程背景可优先考虑平台开发,数据敏感者可选择数据工程,而模型部署更适合有经验者。文章强调数据工程和平台建设等基础岗位同样重要,且更容易入行,建议新人结合自身优势选择适合的发展路径。

2025-06-28 16:04:56 446

原创 Rerank是什么?为什么 RAG 一定需要 Rerank?

摘要: RAG系统通过Embedding模型将问题转换为向量,在向量数据库中进行初步检索,再使用Reranking模型精排相关文本片段。Embedding模型采用双塔结构进行粗筛,快速召回候选文本;Reranking模型通过交叉编码深入分析语义相关性,提升答案质量。两者配合解决了大规模数据处理和精准语义匹配的问题。常见Reranking模型包括BGE-Reranker、Cohere Rerank和monoT5。随着AI大模型快速发展,相关人才需求激增,学习资源丰富,为零基础者提供了系统学习机会。(150字)

2025-06-27 14:44:52 798

原创 Transformer是啥(说人话版),看完这篇你就悟了!

Transformer技术解析与AI发展前景 Transformer是一种革命性的深度学习架构,突破了传统序列模型局限。其核心是自注意力机制,能同时处理整句信息而非逐词分析。通过多头注意力、位置编码等创新设计,Transformer实现了并行计算和长距离依赖捕捉,成为BERT、GPT等大模型的基础技术。 当前AI领域发展迅猛,国内已涌现超百个10亿参数大模型。预计2025年AI人才缺口将达千万,算法和工程类岗位需求尤为迫切。Transformer技术的普及为从业者带来新机遇,系统学习AI大模型知识体系将成为

2025-06-26 15:22:48 679

原创 RLHF是什么?为什么需要RLHF?RLHF的关键流程是什么?

RLHF技术解析:大语言模型如何学习人类偏好 RLHF(基于人类反馈的强化学习)通过三个阶段优化大模型输出:1)监督微调初步学习优质回答;2)训练奖励模型自动评分;3)强化学习持续优化生成策略。该技术解决了模型输出与人类价值观的对齐问题,但面临标注成本高、奖励模型设计复杂等挑战。随着AI大模型人才缺口扩大,掌握RLHF等前沿技术将成为职业发展新机遇。 (字数:149)

2025-06-25 14:40:05 936

原创 Transformer里的QKV到底是从哪里来的?

Transformer中的Q、K、V矩阵解析 在Transformer的自注意力机制中,输入tensor会被拆分为Q(Query)、K(Key)、V(Value)三个矩阵: Q负责"主动查询",K用于"被查询匹配",两者配合计算注意力权重 V是待加权的特征表示,使注意力结果更具可学习性 三矩阵设计实现了:关系计算与特征更新的解耦,通过线性变换引入更多可学习参数 这种设计比单向量方案更灵活,既能捕捉双向关联,又能通过参数化提升模型表达能力。本质上是通过矩阵拆分实现注意力

2025-06-24 15:57:44 901

原创 多模态大语言模型(MLLM)为什么用Q-Former结构的变少了?

摘要: 论文《DeCo》探讨了多模态大语言模型(MLLM)中视觉-文本模态桥接器的设计问题,指出在资源充足时,线性投影器(Linear Projector)是更优选择,而资源受限时,Q-former作为token压缩器效率低下。研究发现,简单的自适应平均池化(AdaptiveAveragePooling)在减少图像token数量上表现优于Q-former,且训练收敛更快。DeCo提出解耦token压缩与语义抽象,认为Q-former的视觉语义预提取冗余且易丢失信息,而LLM本身已具备语义提取能力。实验表明,

2025-06-23 10:55:36 737

原创 什么是Agentic RAG?和RAG又有什么区别?

Agentic RAG:AI智能体驱动的检索增强生成技术 摘要:Agentic RAG是将AI智能体整合到传统RAG(检索增强生成)流程中的创新技术。相比传统RAG的简单检索-生成模式,Agentic RAG通过引入具备记忆、规划和工具使用能力的AI智能体,实现更复杂的知识获取和处理。典型架构包括单智能体路由和多智能体协作两种形式,能同时处理向量搜索、网络检索等多种知识源。该技术有效解决了传统RAG的局限性,为AI大模型应用开辟了新方向。随着AI领域人才需求激增,掌握相关技术将带来重要发展机遇。

2025-06-21 14:45:20 549

原创 AI大模型面试:MoE训练是选EP还是选TP?

摘要: 在MOE模型训练中,专家并行(EP)比张量并行(TP)更具优势。EP允许每个GPU处理不同数据,不影响数据并行(DP)规模,而TP会减少DP数量,影响吞吐量。尽管EP和TP通信开销相近,但EP的计算效率更高,更适合大规模专家模型。此外,EP的大矩阵乘法更利于GPU优化,而TP的小矩阵乘法频繁Kernel Launch会降低效率。实验表明,EP在专家数量较多时性能更优,如DeepSeek V2采用8EP+16PP配置,未使用TP。因此,EP在MOE训练中更受青睐。 点击获取AI大模型学习资料

2025-06-20 14:50:05 524

原创 知识图谱+大模型是怎么样的?一篇文章让你通俗易懂理解!

摘要:知识图谱与大模型具有显著的互补性,知识图谱提供结构化、可信的知识体系,而大模型擅长语言理解和零样本学习。二者结合可提升知识图谱构建效率与完整性,同时增强大模型的推理能力、可解释性和知识更新效率。未来研究将聚焦于知识编码优化、图模深度融合及减少幻觉现象,推动AI系统的可靠性与智能水平。随着AI大模型人才需求激增,系统学习相关技术成为新兴行业的重要机遇。(150字)

2025-06-19 14:58:45 918

原创 怎么通俗易懂地理解AI大模型微调?一篇大白话文章解释模型微调!

摘要: 微调是通过特定数据优化预训练大模型的技术,主要分为三种方式: CPT(继续预训练):使用无标签数据强化领域知识,适用于专业领域(如医学、法律)。 SFT(监督微调):基于问答对训练,提升指令跟随能力,适合客服机器人等场景。 DPO(偏好训练):通过对比答案优化输出质量,减少有害内容。 建议优先尝试提示词工程或RAG(检索增强生成),仅在需要深度定制(如专业领域、私有数据)且资源充足时考虑微调,因其成本高、技术门槛高。AI大模型领域人才缺口大,系统学习可把握新兴行业机遇。 (字数:150)

2025-06-18 15:46:47 836

原创 AI大模型Agent是不是就是各种Prompt的堆叠?

AI大模型Agent是否仅是Prompt工程的延伸?业界存在激烈争论。一方认为Agent本质是Prompt的高级排列组合,强调语言艺术的重要性;另一方则指出企业级应用需要复杂系统架构,包括任务调度、状态管理等技术要素。专家指出,Agent发展呈现阶段性特征:从初级Prompt工程,到中级工具调用,再到高级的事件驱动系统。真正的Agent系统需融合Prompt设计、状态管理、任务规划等多维度能力。这场争论反映了AI技术快速演进中的认知差异,也揭示了从简单交互到系统工程的技术进化路径。随着AI人才需求激增,掌握

2025-06-16 10:59:21 604

原创 AI大模型中的对齐(Alignment)是什么?为什么要做对齐?

简单来说,对齐指的是让大语言模型的行为、输出和决策方式与其设计者(人类操作者)的意图、价值观和指令保持一致的过程。

2025-06-13 11:48:16 624

原创 为什么说:一体机是阻碍DeepSeek性能最大的绊脚石

摘要:一体机并非DeepSeek这类MoE(混合专家)模型的高效部署方案。MoE模型虽通过激活少量专家来降低计算量,但所有专家参数仍需存储,导致资源占用巨大。DeepSeek-R1/V3等模型需要超高配置的一体机(100万起)才能运行"满血版",实际利用率却很低。官方推荐采用多节点并行架构(176张卡)才能实现最佳性能。尽管一体机在数据隐私和本地部署方面有优势,但更适合稠密模型。建议企业根据需求选择精简版或等待新一代模型,同时关注AI领域快速发展的新机遇。

2025-06-12 11:43:00 592

原创 Fine-Tuning目前主流的三种微调方式有什么区别?

本文系统介绍了三种主流的大语言模型微调技术:Prompt-tuning通过优化输入提示激发模型能力,无需调整模型参数;Prefix-tuning在输入序列前端插入可训练前缀参数调控编码方式;LoRA则通过训练低秩矩阵高效微调模型。三种方法各有优势,可针对不同任务需求选择。文章还推荐了LoRA微调工具LLaMA-Factory,并分析了关键参数设置。随着AI大模型快速发展,掌握这些微调技术将有助于从业者适应行业需求。文末提供了大模型学习资源获取方式。

2025-06-11 18:37:02 915

原创 模型并行是什么?一文说清模型并行(Model Parallelism)

随着大模型(比如 GPT、PaLM)的规模越来越大,参数动辄千亿级,甚至一个模型的“单层参数”都可能装不进一张 GPU 的显存!这时候,我们就要搬出“模型并行”技术来帮忙啦~

2025-06-09 11:24:59 636

原创 模型蒸馏是什么?一文带你搞懂“模型蒸馏”看这篇就够了!

就像一位资深大厨(大模型)教徒弟(小模型)做菜。徒弟不需要背下所有菜谱(全部训练数据),只需模仿师傅的做菜方式和调味技巧(推理轨迹/推理输出),也能做出味道相近的菜肴。

2025-06-07 10:33:20 586

原创 Beam Search是什么?一文讲清AI大模型知识点Beam Search(束搜索)

模型会根据设定的 Decode 策略,从中选择一个词输出。这个选择过程被称为: Decoding,而 BeamSearch(束搜索)就是其中一种常用的 Decode 策略。

2025-06-06 16:17:07 553

原创 【AI大模型知识点扫盲】Transformer到底是个啥?(说人话版)

Transformer架构简介 Transformer是一种革命性的深度学习模型,采用自注意力机制并行处理序列数据,克服了传统RNN的顺序处理限制。该架构由编码器和解码器组成,核心组件包括多头注意力机制、位置编码、前馈网络等,能够高效捕捉长距离依赖关系。其并行处理能力和可扩展性推动了BERT、GPT等大模型的发展,成为当前自然语言处理领域的主流架构。随着AI技术的快速发展,掌握Transformer等大模型技术将为职业发展带来新机遇。

2025-06-05 15:20:25 1009

原创 一文讲清:AI大模型轻量化的5个主流方法,看完你就懂了!

摘要: 本文介绍了五种主流的神经网络压缩与加速技术:1)低秩分解通过张量分解降低参数规模;2)剪枝技术剔除不重要连接实现稀疏化;3)量化方法减少数值精度以优化存储计算;4)知识蒸馏将大模型知识迁移至轻量学生网络;5)架构搜索自动设计高效网络结构。随着AI大模型爆发式增长(国内超10亿参数模型已逾百个),相关人才需求激增(2025年预计缺口达千万)。文末提供包含学习路线、书籍报告等资源的全套AI大模型学习资料。

2025-06-03 15:25:11 338

原创 AI大模型中的思维链(chain of Thought, CoT)是什么?看完小白也悟了!

摘要:思维链(CoT)是一种让AI逐步展示推理过程的提示方法,显著提升复杂问题(如数学题、逻辑推理)的准确率。通过分步解析,AI能调动相关逻辑模块,自我纠错,类似人类解题时的思考过程。思维链分为显式(可见步骤)和隐式(仅输出结果)两种形式,但仍存在模型能力依赖、冗余步骤和效率问题等局限。随着AI大模型的快速发展,相关人才需求激增,学习AI大模型成为新兴行业的重要机会,需要系统化学习和持续投入。

2025-05-30 11:28:32 610

原创 Pre-Training、Fine-Tuning、SFT、LoRA、RLHF之间有什么关系?

深度学习中的预训练与微调技术综述 预训练(Pre-Training)是在大规模数据集上训练基础模型,使其学习通用特征,为下游任务提供良好初始状态。微调(Fine-Tuning)则针对特定任务在小规模标注数据上调整模型参数。文章介绍了预训练流程、微调方法(包括全参数微调和高效微调技术如LORA),以及监督微调(SFT)和基于人类反馈的强化学习(RLHF)等进阶技术。这些方法能有效提升模型性能,降低训练成本,使AI大模型更好地适应不同领域需求。随着AI技术快速发展,掌握这些核心技术对职业发展具有重要意义。

2025-05-29 15:28:02 1025

原创 什么是注意力机制?什么是自注意力机制?二者有何区别?

本文深入浅出地讲解了AI大模型中的核心机制——注意力与自注意力。通过类比"学霸划重点"和"自助餐厅选餐"等生活化场景,形象阐述了注意力机制如何让AI动态聚焦关键信息。重点解析了自注意力的QKV计算流程、多头注意力架构等技术原理,并对比了与传统RNN/CNN的差异。文章强调自注意力机制是Transformer的核心突破,使AI能够高效处理长距离依赖关系。同时指出AI行业人才缺口巨大,提供从基础到进阶的系统学习资源路径,帮助读者把握技术发展机遇。

2025-05-28 14:58:35 1036

原创 AI大模型中BERT的Embedding到底是个什么?看完小白也懂了!

摘要: Embedding是将文本转化为语义向量(浮点数数组)的技术,通过向量距离反映语义相关性。其生成方式分为两类:1)大模型推理中的Token级Embedding,通过分词和词表映射实现;2)独立使用的句子/文档级Embedding(如Sentence-BERT),用于检索和相似性分析。本质是模型通过海量数据学习到的语义数学表示(如“猫”与“狗”向量相近)。应用场景包括RAG、相似性判断和文本聚类。与Token不同,Embedding是训练得到的连续向量,长度固定。大模型(如Qwen)与小模型(如BER

2025-05-27 14:36:18 846

原创 知识图谱是什么?和AI大模型有什么关系 ?

知识图谱是一种结构化表示信息的方法,通过实体和关系描述事实(如"张三在苹果公司工作")。随着大模型的发展,知识图谱因其能有效缓解大模型幻觉问题而重新受到关注。相比传统RAG方案,知识图谱在解决复杂关系查询(如"技术团队成果汇总")时更具优势,能与向量数据库形成互补。实际应用中可采用多路召回策略,结合关系型数据库、向量数据库和知识图谱。AI大模型领域人才缺口巨大,建议把握学习机会获取相关资源。

2025-05-26 14:08:05 704

原创 【写给小白的LLM】AI大模型中的 token 到底是个什么?

本文介绍了AI大模型中的核心概念——Token。Token是文本处理的最小单位,相当于AI理解语言的"积木块",可以是一个单词、标点符号或子词。文章解释了中英文Token的差异:中文1个Token约1-2个汉字,英文1个Token约0.75个单词。Token数量直接影响AI服务的计费(如ChatGPT按Token收费)和内容长度限制(如GPT-3.5最多支持4096 Tokens)。技术层面,Token通过分词算法转换,每个Token对应唯一ID和数学向量。文章还提供了优化Token使用

2025-05-24 15:00:59 842

原创 AI大模型幻觉是什么?为什么会“幻觉”?一篇让你秒懂的大白话文章!

大模型幻觉(Al hallucination 或 Model Hallucination)是指Al基于概率生成的"自信型错误",输出看似合理但完全失实的内容,像极了人类"不懂装懂"的样子。

2025-05-22 14:53:42 469

原创 AI大模型推理框架,vLLM和SGLang有什么区别?

SGLang与vLLM大模型推理框架对比分析 SGLang专为高并发和复杂任务设计,在多轮对话、格式化输出等场景表现优异,其RadixAttention技术可提升缓存复用率3-5倍。vLLM则在单轮推理场景优势明显,采用PagedAttention技术实现高效内存管理。测试数据显示,SGLang在高并发下吞吐量更稳定,而vLLM在首字响应速度上更快。选择建议:复杂交互选SGLang,简单高并发选vLLM,实际应用需结合业务场景实测验证。当前AI大模型领域快速发展,掌握相关技术将带来职业新机遇。<|en

2025-05-21 15:05:11 1115

原创 一文读懂:AI大模型分布式训练并行技术

随着深度学习模型参数量的急剧增加,传统的单机单卡训练方式已无法满足需求,分布式训练成为解决这一问题的关键。本文深入探讨了分布式训练中的多种并行技术,包括数据并行、流水线并行、张量并行、序列并行、多维混合并行、自动并行和MOE并行。这些技术通过不同的方式对计算负载、训练样本及模型结构进行切分,以实现存储与计算资源的分布式调度,从而支持超大规模模型的训练。文章还分析了在不同硬件配置下如何选择合适的并行策略,并指出自动并行技术在工业界应用中的局限性。分布式训练技术的深入研究对于推动AI大模型的发展具有重要意义。

2025-05-20 11:08:40 646

原创 一文说清:为什么SFT负责记忆 ,RL负责泛化?

本文探讨了监督微调(SFT)和强化学习(RL)在基础模型后训练中对泛化能力的影响。通过引入Generalpoints算术推理卡牌游戏和V-IRL真实世界导航环境,研究比较了SFT和RL在文本和视觉领域的泛化表现。结果表明,RL在基于规则的文本和视觉环境中展现出更强的泛化能力,而SFT则倾向于记忆训练数据,难以泛化到分布外的数据。尽管RL在泛化方面表现优越,但SFT在稳定模型输出格式方面仍具有重要作用,为后续RL训练提供了基础。研究还发现,扩展推理时计算有助于提升模型的泛化能力,特别是在视觉语言模型中。这些发

2025-05-19 14:52:20 769

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除