Joshua_Lam-CSDN博客

原创学习率预热总结

学习率预热是深度学习中重要的优化策略，尤其适用于大规模模型（如Transformer）或大批量训练。“先稳后快”，既保证训练稳定性，又加速模型收敛。

2025-08-10 17:48:06 259

训练数据: [w₁, w₂, w₃, w₄]│ │ │ │▼ ▼ ▼ ▼输入: [w₁, w₂, w₃] ← 去尾│ │ │▼ ▼ ▼预测: P(w₂|w₁), P(w₃|w₁,w₂), P(w₄|w₁,w₂,w₃)│ │ │▼ ▼ ▼标签: [w₂, w₃, w₄] ← 去头关键点说明标签=语料因为语言模型的任务是预测下一个词，答案就在数据中自动偏移1个token输入去尾，标签去头，框架自动完成物理意义模拟人类逐词阅读/写作的过程错误用法警示手动偏移会导致模型学乱词序依赖。

2025-08-09 21:50:59 659

原创大模型prompt-Tuning方法进阶

Prompt-Tuning 是通过设计任务相关的模板或指令，引导预训练模型完成下游任务的技术。其核心思想是通过少量可训练参数或示例，激发模型隐含的知识，从而减少对全量微调的依赖。指令学习通过明确的任务指令（Instruction）降低模型歧义性，提升复杂任务的泛化能力。CoT 通过引入中间推理步骤，提升模型在复杂推理任务（如数学问题）中的表现。PEFT 通过仅微调少量参数，降低大模型训练成本，同时保留预训练知识。

2025-08-08 21:10:32 568

原创 Prompt-Tuning方法简单介绍

将下游任务重构为预训练模型的预训练任务（如MLM），通过设计Prompt引导模型生成目标输出。使用交叉熵损失训练MLM分类器，仅更新Prompt参数（如Soft Prompt向量）。：Prompt-Tuning通过添加模板避免引入额外参数，适用于小样本或零样本场景。Prompt是用户与模型之间的“桥梁”，通过设计输入引导模型生成目标输出。：Fine-Tuning是将预训练模型适应特定下游任务的方法。：将下游任务转换为预训练任务形式，全量微调模型参数。将原始句子拼接为包含[MASK]的模板。

2025-08-08 20:28:12 734

原创 LLM主流开源大模型分类与特性

Hugging Face开发的多语言模型（支持46种语言+13种编程语言），最大参数量176B。：由清华大学开发的开源中英双语对话模型，基于GLM架构，参数量62亿。：Meta AI开发的英文为主的开源模型，参数量从7B到65B。：深度求索实验室开发的中文优化模型，参数量从67B到671B。：阿里巴巴开发的大规模开源模型，参数量从18亿到720亿。：1.4T token（65B版本），不含中文语料。：百川智能开发的中英双语开源模型，参数量70亿。：1.2T token，含中文互联网数据。

2025-08-06 20:08:26 487

原创强化学习的状态价值函数（State Value Function）

强化学习中的（State Value Function），用于衡量在某个状态s下，遵循策略π时，模型能够获得的。我们来逐步拆解这个公式的含义，并详细解释每个符号的作用。

2025-08-06 19:49:48 715

原创 ChatGPT及GPT系列模型总结

GPT（Generative Pre-trained Transformer）系列模型通过逐步增加模型规模、优化训练方法和引入人类反馈，实现了从基础语言模型到对话型AI的跨越。，它通过“人类标注-奖励建模-强化学习”三阶段流程，使模型更贴合人类价值观和交互需求。尽管存在服务稳定性等问题，但其在自然语言生成领域的突破性进展已显著降低AI技术的使用门槛。GPT系列模型通过逐步扩大规模、优化训练方法和引入人类反馈，实现了从基础语言模型到对话型AI的跨越。ChatGPT的核心在于通过。

2025-08-06 19:25:13 683

原创文本相似度计算方法全视角解析

方法类别代表方法优点缺点适用场景One-Hot方法One-Hot + 余弦/欧式简单直观，实现容易忽略词序，无法处理OOV词小规模数据集，快速原型开发传统机器学习计算简单，可解释性强忽略词序，语义理解弱短文本，计算资源有限深度学习Word2Vec平均, USE捕捉语义信息需要大量数据训练通用语义相似度NLP专用编辑距离, Tree Kernels考虑结构信息计算复杂，领域特定特定领域如代码相似度LLM方法强大语义理解计算资源需求高高精度要求的场景。

2025-08-06 15:24:07 826

原创 One-Hot编码 + 相似度计算：余弦相似度 vs. 欧氏距离

wivi0...1...0isimAB∣A∣⋅∣B∣A⋅BdAB∑i1nAi−Bi2sim就是余弦cosθsim是的缩写，sklearn中相关方法也叫这个名字，如下所示。

2025-08-06 14:55:12 629

原创 ReLU、GELU、GEGLU激活函数对比

ReLU、GELU 和 GEGLU 是深度学习中常用的激活函数，它们的核心区别主要体现在非线性变换的方式、数学形式以及对模型性能的影响上。

2025-08-05 21:54:14 877

原创温度T影响标签的“软硬”

这种设计使得模型蒸馏不仅能压缩模型大小，还能提取教师模型中隐含的丰富信息！最大值的概率趋近1，其他趋近0，分布趋近one-hot（更“硬”）。的差异被缩小，所有类别的概率趋近均匀分布（更“软”）。（硬标签，接近独热编码）（软标签，保留相似性）

2025-08-05 21:44:40 661

原创模型蒸馏原理与应用大概介绍

通过教师模型生成的类别概率分布（软标签）作为监督信号，让学生模型学习类别间的相对关系（如"猫 vs 狗"的相似性高于"猫 vs 汽车"）。直接使用真实标签（Ground Truth）的one-hot编码作为监督信号，强制学生模型学习与真实标签完全匹配的决策边界。让学生模型模仿教师模型的中间层特征表示（如隐藏层输出、注意力权重），而不仅是最终输出。：适配层（如线性投影），用于匹配特征维度。）：趋近one-hot（硬标签），如。：教师和学生的中间层特征。教师熵（常数）对应的是。增大时，梯度幅度会缩小。

2025-08-05 21:22:20 640

原创 word2vec和狭义embedding的区别

现代模型（如Transformer）通常直接使用Embedding层端到端训练，无需预训练Word2Vec。都是将离散词语映射为连续向量的技术，但它们的实现方式、训练目标和应用场景有显著差异。在迁移学习中，静态Word2Vec向量可被微调（fine-tuned）。Word2Vec预训练的词向量可作为Embedding层的。词向量随着模型在具体任务（如文本分类）的反向传播被优化，两者本质是同一思想（词嵌入）在不同技术路径下的实现。（替代随机初始化），加速模型收敛。），将输入的词语ID映射为向量。

2025-08-05 09:48:06 353

原创 transformer和bert位置编码有什么区别

Transformer 和 BERT 的位置编码（Positional Encoding）在核心目标上是一致的：为模型提供序列中 token 的位置信息，以弥补自注意力机制本身对顺序不敏感的特性。原始 Transformer（Vaswani et al., 2017）使用固定的、预定义的三角函数（正弦和余弦）来生成位置编码。而原始 Transformer 选择正弦编码，部分原因是为了处理更长的序列（如机器翻译任务中可能出现的超长句子）。

2025-08-05 09:18:59 504

原创 Transformer中残差层与规范层的作用

在Transformer模型中，残差连接（Residual Connection）和规范化层（Layer Normalization）是两个关键设计，它们共同作用以提升模型的训练效率和性能。这种顺序（Post-LN）在原始Transformer中被采用，但后续研究也探索了Pre-LN（规范化在残差之前）等变体。规范化层对每一层的输入进行标准化处理（均值为0，方差为1），加速模型收敛并减少对初始化的敏感度。），解决了深层网络中的梯度消失/爆炸问题，使模型能够训练更深的网络结构。

2025-08-04 18:15:07 289

原创 Function Call 的原理及简单应用总结

Function Call 是大语言模型（如 ChatGPT、ChatGLM 等）与外部功能或 API 进行交互的能力。它允许模型在生成文本的过程中，根据用户需求动态调用预定义的函数，从而获取实时数据或执行特定任务。这一功能由 OpenAI 在 2023 年 6 月 13 日正式公布，现已被多家主流大模型支持。模型仅生成参数，不直接执行函数，需开发者实现函数逻辑。：将自然语言转换为 SQL 并查询。：查询航班号及票价。

2025-08-02 20:25:48 312

原创 LLM主要架构详细总结

LLM（Large Language Model，大语言模型）基于。：GPT-3、LLaMA、PaLM、Claude 等。：当前大模型（如GPT-3、LLaMA）主要采用。BERT 完全基于 Transformer 的。GPT 仅使用 Transformer 的。架构，因其训练效率更高，生成能力更强。

2025-08-02 20:12:03 852

原创 Transformer有效解决RNN的梯度爆炸或消失问题

自注意力：取代循环结构，实现O1O(1)O1长距离梯度传播。残差连接：提供恒等路径，确保梯度直接回传。归一化与缩放：稳定激活分布，防止梯度饱和。并行计算：避免时序依赖导致的梯度连乘。这些机制共同解决了 RNN 的固有缺陷，使其在处理长序列时更高效稳定。

2025-08-02 19:41:53 728

原创 OOV（Out-of-Vocabulary）问题详解与解决方案

即**“词汇表外词”**，指的是在自然语言处理（NLP）任务中，某个词没有出现在模型的预训练词汇表或训练数据中，导致模型无法直接识别或处理该词。等方法可以有效缓解。选择哪种方案取决于具体任务和数据特点。将单词拆分为更小的单元（子词或字符），减少OOV概率。OOV是NLP中的常见挑战，但通过。将进一步提升OOV处理能力。

2025-08-01 23:39:49 492

原创 LLM基础知识详细总结

技术架构AttentionQKVsoftmaxQKTdkVAttentionQKVsoftmaxdkQKTV前馈神经网络层残差连接和层归一化训练数据规模训练语料通常达TB级别（如GPT-3训练数据约570GB）词汇表大小通常在5万-10万token之间计算资源需求模型参数规模GPU显存需求训练时间（A100 GPU）1B16GB~1周10B80GB~1月100B800GB。

2025-08-01 23:31:38 565