蓝海星梦-CSDN博客

原创【论文笔记】OctoThinker：突破 Llama 推理瓶颈的中期训练范式

本文介绍了OctoThinker模型，这是一种通过中期训练策略优化Llama模型推理能力的新型方法。研究表明，高质量的数学语料库和数据混合策略对提升模型的强化学习（RL）性能至关重要。OctoThinker采用两阶段中期训练策略，首先在大规模数据上进行稳定训练，然后在特定推理分支上进行衰减训练。实验结果表明，该策略显著提升了模型在数学推理任务上的表现，缩小了与RL友好模型家族如Qwen的性能差距。

2025-07-05 21:50:48 942 1

原创【论文笔记】DeepSeek-R1：强化学习驱动的推理能力突破

本文介绍了DeepSeek-R1系列推理模型的研究进展。DeepSeek-R1-Zero首次证明仅通过大规模强化学习（RL）即可显著提升模型推理能力，无需监督微调（SFT），在AIME 2024基准上pass@1分数从15.6%提升至71.0%。为改善其可读性问题，研究者进一步提出DeepSeek-R1，引入冷启动数据和多阶段训练流程（SFT+RL+拒绝采样），性能达到与OpenAI-o1-1217相当水平。研究还展示了将大模型推理能力蒸馏到较小模型的有效方法，并开源了全部模型和训练数据。

2025-07-05 14:44:45 697 2

原创【强化学习】深度解析 GRPO：从原理到实践的全攻略

GRPO（群组相对策略优化）是一种高效的大语言模型强化学习微调算法，通过组内相对比较和去价值网络设计，显著降低了传统PPO的计算开销。其核心创新在于利用组内响应奖励的归一化比较替代绝对价值估计，结合KL散度惩罚和策略裁剪机制确保训练稳定性。该算法特别适合数学推理、代码生成等复杂任务，能在单卡中等规模模型上高效运行。

2025-07-02 23:14:56 809

原创【论文笔记】LLaDA——突破传统自回归的文本生成新范式

LLaDA (Large Language Diffusion with mAsking) 模型是一种基于扩散模型 (Diffusion Model) 的大型语言模型，其核心思想借鉴了计算机视觉领域的扩散模型，通过逐步去除掩码来生成文本，是一种突破传统自回归模型逐个生成词元的文本生成新方式。

2025-07-02 10:40:54 733 1

原创【论文笔记】LLaVA——指令微调赋能多模态大模型

LLaVA 是一种大型多模态模型，通过指令微调将视觉编码器与大型语言模型（LLM）相结合，显著提升了视觉和语言任务的性能，尤其在多模态对话和指令遵循方面表现出色。

2025-04-02 21:29:17 1444 1

原创【DeepSeek开源周】Day 5：3FS & Smallpond 学习笔记

Fire-Flyer File System（3FS）是一个高性能分布式文件系统，旨在解决人工智能训练和推理工作负载的挑战。它利用现代固态硬盘（SSD）和远程直接内存访问（RDMA）网络，提供一个共享存储层，从而简化分布式应用程序的开发。

2025-03-20 09:09:48 965

原创【DeepSeek开源周】Day 4：DualPipe & EPLB 学习笔记

DualPipe 是一种创新的双向流水线并行算法。它通过在流水线的两端同时注入微批次，实现了前向和反向传播的完全重叠，从而大幅减少了流水线空闲时间（Pipeline Bubble），显著提高了计算资源的利用率。EPLB（Expert Parallelism Load Balancer）则是一种专家并行负载均衡算法。通过冗余专家策略和分组限制专家路由，优化了专家并行（EP）中的负载分配，确保不同 GPU 之间的负载均衡，提高训练效率。

2025-03-19 08:15:42 2474

原创【DeepSeek开源周】Day 3：DeepGEMM 学习笔记

DeepGEMM 是一个专为 NVIDIA Hopper 架构设计的高效 FP8 矩阵乘法库，支持普通和混合专家模型（MoE）分组矩阵乘法，通过简洁的实现和即时编译技术，实现了高性能和易用性。官方开源代码链接：https://github.com/deepseek-ai/DeepGEMM

2025-03-18 09:31:28 1035

原创【DeepSeek开源周】Day 2：DeepEP 学习笔记

DeepEP 是由DeepSeek专为Mixture-of-Experts (MoE) 和专家并行 (Expert Parallelism, EP)设计的高效通信库。它提供了高吞吐量和低延迟的全对全（all-to-all）GPU内核，这些内核也被称为MoE分发（dispatch）和合并（combine）。该库还支持低精度操作，包括FP8。官方开源代码链接：https://github.com/deepseek-ai/DeepEP

2025-03-17 09:49:55 2498