自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(24)
  • 资源 (2)
  • 收藏
  • 关注

原创 学习率预热总结

学习率预热是深度学习中重要的优化策略,尤其适用于大规模模型(如Transformer)或大批量训练。“先稳后快”,既保证训练稳定性,又加速模型收敛。

2025-08-10 17:48:06 259

原创 自回归语言模型训练机制总结

训练数据: [w₁, w₂, w₃, w₄]│ │ │ │▼ ▼ ▼ ▼输入: [w₁, w₂, w₃] ← 去尾│ │ │▼ ▼ ▼预测: P(w₂|w₁), P(w₃|w₁,w₂), P(w₄|w₁,w₂,w₃)│ │ │▼ ▼ ▼标签: [w₂, w₃, w₄] ← 去头关键点说明标签=语料因为语言模型的任务是预测下一个词,答案就在数据中自动偏移1个token输入去尾,标签去头,框架自动完成物理意义模拟人类逐词阅读/写作的过程错误用法警示手动偏移会导致模型学乱词序依赖。

2025-08-09 21:50:59 659

原创 大模型prompt-Tuning方法进阶

Prompt-Tuning 是通过设计任务相关的模板或指令,引导预训练模型完成下游任务的技术。其核心思想是通过少量可训练参数或示例,激发模型隐含的知识,从而减少对全量微调的依赖。指令学习通过明确的任务指令(Instruction)降低模型歧义性,提升复杂任务的泛化能力。CoT 通过引入中间推理步骤,提升模型在复杂推理任务(如数学问题)中的表现。PEFT 通过仅微调少量参数,降低大模型训练成本,同时保留预训练知识。

2025-08-08 21:10:32 568

原创 Prompt-Tuning方法简单介绍

将下游任务重构为预训练模型的预训练任务(如MLM),通过设计Prompt引导模型生成目标输出。使用交叉熵损失训练MLM分类器,仅更新Prompt参数(如Soft Prompt向量)。:Prompt-Tuning通过添加模板避免引入额外参数,适用于小样本或零样本场景。Prompt是用户与模型之间的“桥梁”,通过设计输入引导模型生成目标输出。:Fine-Tuning是将预训练模型适应特定下游任务的方法。:将下游任务转换为预训练任务形式,全量微调模型参数。将原始句子拼接为包含[MASK]的模板。

2025-08-08 20:28:12 734

原创 LLM主流开源大模型分类与特性

Hugging Face开发的多语言模型(支持46种语言+13种编程语言),最大参数量176B。:由清华大学开发的开源中英双语对话模型,基于GLM架构,参数量62亿。:Meta AI开发的英文为主的开源模型,参数量从7B到65B。:深度求索实验室开发的中文优化模型,参数量从67B到671B。:阿里巴巴开发的大规模开源模型,参数量从18亿到720亿。:1.4T token(65B版本),不含中文语料。:百川智能开发的中英双语开源模型,参数量70亿。:1.2T token,含中文互联网数据。

2025-08-06 20:08:26 487

原创 强化学习的状态价值函数(State Value Function)

强化学习中的(State Value Function),用于衡量在某个状态s下,遵循策略π时,模型能够获得的。我们来逐步拆解这个公式的含义,并详细解释每个符号的作用。

2025-08-06 19:49:48 715

原创 ChatGPT及GPT系列模型总结

GPT(Generative Pre-trained Transformer)系列模型通过逐步增加模型规模、优化训练方法和引入人类反馈,实现了从基础语言模型到对话型AI的跨越。,它通过“人类标注-奖励建模-强化学习”三阶段流程,使模型更贴合人类价值观和交互需求。尽管存在服务稳定性等问题,但其在自然语言生成领域的突破性进展已显著降低AI技术的使用门槛。GPT系列模型通过逐步扩大规模、优化训练方法和引入人类反馈,实现了从基础语言模型到对话型AI的跨越。ChatGPT的核心在于通过。

2025-08-06 19:25:13 683

原创 文本相似度计算方法全视角解析

方法类别代表方法优点缺点适用场景One-Hot方法One-Hot + 余弦/欧式简单直观,实现容易忽略词序,无法处理OOV词小规模数据集,快速原型开发传统机器学习计算简单,可解释性强忽略词序,语义理解弱短文本,计算资源有限深度学习Word2Vec平均, USE捕捉语义信息需要大量数据训练通用语义相似度NLP专用编辑距离, Tree Kernels考虑结构信息计算复杂,领域特定特定领域如代码相似度LLM方法强大语义理解计算资源需求高高精度要求的场景。

2025-08-06 15:24:07 826

原创 One-Hot编码 + 相似度计算:余弦相似度 vs. 欧氏距离

wi​vi​0...1...0isimAB∣A∣⋅∣B∣A⋅B​dAB∑i1n​Ai​−Bi​2​sim就是余弦cosθsim是的缩写,sklearn中相关方法也叫这个名字,如下所示。

2025-08-06 14:55:12 629

原创 ReLU、GELU、GEGLU激活函数对比

ReLU、GELU 和 GEGLU 是深度学习中常用的激活函数,它们的核心区别主要体现在非线性变换的方式、数学形式以及对模型性能的影响上。

2025-08-05 21:54:14 877

原创 温度T影响标签的“软硬”

这种设计使得模型蒸馏不仅能压缩模型大小,还能提取教师模型中隐含的丰富信息!最大值的概率趋近1,其他趋近0,分布趋近one-hot(更“硬”)。的差异被缩小,所有类别的概率趋近均匀分布(更“软”)。(硬标签,接近独热编码)(软标签,保留相似性)

2025-08-05 21:44:40 661

原创 模型蒸馏原理与应用大概介绍

通过教师模型生成的类别概率分布(软标签)作为监督信号,让学生模型学习类别间的相对关系(如"猫 vs 狗"的相似性高于"猫 vs 汽车")。直接使用真实标签(Ground Truth)的one-hot编码作为监督信号,强制学生模型学习与真实标签完全匹配的决策边界。让学生模型模仿教师模型的中间层特征表示(如隐藏层输出、注意力权重),而不仅是最终输出。:适配层(如线性投影),用于匹配特征维度。):趋近one-hot(硬标签),如。:教师和学生的中间层特征。教师熵(常数)对应的是。增大时,梯度幅度会缩小。

2025-08-05 21:22:20 640

原创 word2vec和狭义embedding的区别

现代模型(如Transformer)通常直接使用Embedding层端到端训练,无需预训练Word2Vec。都是将离散词语映射为连续向量的技术,但它们的实现方式、训练目标和应用场景有显著差异。在迁移学习中,静态Word2Vec向量可被微调(fine-tuned)。Word2Vec预训练的词向量可作为Embedding层的。词向量随着模型在具体任务(如文本分类)的反向传播被优化,两者本质是同一思想(词嵌入)在不同技术路径下的实现。(替代随机初始化),加速模型收敛。),将输入的词语ID映射为向量。

2025-08-05 09:48:06 353

原创 transformer和bert位置编码有什么区别

Transformer 和 BERT 的位置编码(Positional Encoding)在核心目标上是一致的:为模型提供序列中 token 的位置信息,以弥补自注意力机制本身对顺序不敏感的特性。原始 Transformer(Vaswani et al., 2017)使用固定的、预定义的三角函数(正弦和余弦)来生成位置编码。而原始 Transformer 选择正弦编码,部分原因是为了处理更长的序列(如机器翻译任务中可能出现的超长句子)。

2025-08-05 09:18:59 504

原创 Transformer中残差层与规范层的作用

在Transformer模型中,残差连接(Residual Connection)和规范化层(Layer Normalization)是两个关键设计,它们共同作用以提升模型的训练效率和性能。这种顺序(Post-LN)在原始Transformer中被采用,但后续研究也探索了Pre-LN(规范化在残差之前)等变体。规范化层对每一层的输入进行标准化处理(均值为0,方差为1),加速模型收敛并减少对初始化的敏感度。),解决了深层网络中的梯度消失/爆炸问题,使模型能够训练更深的网络结构。

2025-08-04 18:15:07 289

原创 Function Call 的原理及简单应用总结

Function Call 是大语言模型(如 ChatGPT、ChatGLM 等)与外部功能或 API 进行交互的能力。它允许模型在生成文本的过程中,根据用户需求动态调用预定义的函数,从而获取实时数据或执行特定任务。这一功能由 OpenAI 在 2023 年 6 月 13 日正式公布,现已被多家主流大模型支持。模型仅生成参数,不直接执行函数,需开发者实现函数逻辑。:将自然语言转换为 SQL 并查询。:查询航班号及票价。

2025-08-02 20:25:48 312

原创 LLM主要架构详细总结

LLM(Large Language Model,大语言模型)基于。:GPT-3、LLaMA、PaLM、Claude 等。:当前大模型(如GPT-3、LLaMA)主要采用。BERT 完全基于 Transformer 的。GPT 仅使用 Transformer 的。架构,因其训练效率更高,生成能力更强。

2025-08-02 20:12:03 852

原创 Transformer有效解决RNN的梯度爆炸或消失问题

自注意力:取代循环结构,实现O1O(1)O1长距离梯度传播。残差连接:提供恒等路径,确保梯度直接回传。归一化与缩放:稳定激活分布,防止梯度饱和。并行计算:避免时序依赖导致的梯度连乘。这些机制共同解决了 RNN 的固有缺陷,使其在处理长序列时更高效稳定。

2025-08-02 19:41:53 728

原创 OOV(Out-of-Vocabulary)问题详解与解决方案

即**“词汇表外词”**,指的是在自然语言处理(NLP)任务中,某个词没有出现在模型的预训练词汇表或训练数据中,导致模型无法直接识别或处理该词。等方法可以有效缓解。选择哪种方案取决于具体任务和数据特点。将单词拆分为更小的单元(子词或字符),减少OOV概率。OOV是NLP中的常见挑战,但通过。将进一步提升OOV处理能力。

2025-08-01 23:39:49 492

原创 LLM基础知识详细总结

技术架构AttentionQKVsoftmaxQKTdkVAttentionQKVsoftmaxdk​​QKT​V前馈神经网络层残差连接和层归一化训练数据规模训练语料通常达TB级别(如GPT-3训练数据约570GB)词汇表大小通常在5万-10万token之间计算资源需求模型参数规模GPU显存需求训练时间(A100 GPU)1B16GB~1周10B80GB~1月100B800GB。

2025-08-01 23:31:38 565

原创 Word2Vec 和 GloVe 的区别与联系

是权重函数(抑制高频词影响)。

2025-08-01 23:22:26 471

原创 大模型提示工程指南详细总结

进阶技巧多角度摘要生成基于角色的摘要(客服/经理视角)信息抽取式摘要。

2025-08-01 23:10:16 215

原创 TTL(Time To Live)在LangChain中的深度解析

TTL(生存时间)是计算机系统中的通用技术,指数据在缓存系统中保留的有效时长(单位:秒)。在LangChain框架中主要用于控制各类缓存数据的生命周期。

2025-08-01 20:59:56 713

原创 LangChain框架深度解析

return {"answer": text.split("答案:")[1]}| prompt| llm。

2025-08-01 20:33:53 858

SEED-DTK6446实验手册

SEED公司6446开发板配套实验手册,可以通过实验巩固知识

2012-05-14

CCSv4_userguide

SEED公司为CCSV4.0使用做出详细说明

2012-05-14

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除