自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

2401_84677954的博客

原创 RMSNorm

llama在transformer架构上面用RMSNorm代替了传统的LayerNorm，大致是为了优化传统的归一化方法，提升模型的训练效果和稳定性？？这个本人不得而知，不过既然llama用了，还是得学习。。难受一枚RMSNorm（Root Mean Square Normalization）就是处理输入向量的均方根进行归一化处理，而不依赖输入向量的均值，大体过程如下：其中x是我们的输入向量，d为输入的维度，公式一目了然，很简单其实就是做了一个简单的处理如下：正如其他的归一化处理一样，我们在BMSNorm

2025-04-01 15:34:46 976

原创 FastText简单使用

我们需要了解 Word2Vec 中的 Skip-Gram 和 CBOW 模型，以及负采样、层次 SoftMax 知识通过上下文（周围的词）预测中心词（目标词）。例如，给定句子，若窗口大小为2（左右各2个词），则对于中心词，上下文为。输入层：上下文词的One-hot编码（多个词的平均或拼接）。隐藏层：将上下文词向量加权平均（或求和）为一个向量。输出层：通过Softmax预测中心词的概率分布。输入上下文词向量：vcontext=1C∑c=1Cvcvcontext=C1∑c=1Cvc（CC为上下文

2025-02-21 21:47:43 706

原创简易CBOW模型（n-gram）编码

本文目的在于使用前两个词来去预测后面的词，效果在于理解word embedding层和得到一个词表，为了更好的理解word2vec模型架构1.超参数定义和测试数据CONTEXT_SIZE = 2 # 使用前2个词预测下一个词（类似CBOW）EMBEDDING_DIM = 10 # 词向量维度2.生成n-gram数据ngrams = [：生成形如的训练样本若句子为，则生成：embeddings层将索引映射为词向量将多个词向量拼接为一行（例如2个词→2x10→20维）

2025-02-20 02:06:30 893

原创大语言模型LLM基础之Tokenizer

在理解需要Tokenizer之前，我们先看看nlp的输入是什么，以transformer架构为例如上图所示。而有了token之后，每一个token就会对应一个id 也是我们成为的向量，在经过embedding层之后，就会变为我们的向量，就是我们熟知的[batch_size,seq_length,d_model]的一个三维空间了因此，在这个过程中，tokenizer就是将离散的文本数据转换为连续的向量表示，使得模型能够更好地处理和理解文本数据。

2025-02-19 21:39:15 1187

原创 transformer学习

对于序列中的每个元素，计算其查询向量与所有键向量的点积，然后除以一个缩放因子（通常是隐藏层大小的平方根），以防止点积结果过大。自注意力机制通过计算序列中每个元素与其他所有元素的相关性（或注意力分数），来决定每个元素在序列中的重要性。batch_x (Tensor): 输入的token索引张量，形状为[batch_size, sequence_length]。batch_y (Tensor): 可选的目标标签张量，形状为[batch_size, sequence_length]。

2025-02-19 02:39:52 780

原创初识CNN一些经典模型

输出尺寸 (4, 512, 14, 14) -> 输出尺寸 (4, 512, 7, 7)池化核大小为 2x2，stride 为 2。

2025-02-18 23:33:11 664

原创 Bert实战

2.定义myBertModel继承nn.Moudle,用于构建bert模型，其中bert_path路径同上，num_class为分类任务中的分类数，由于label标签只有好评与差评，所以num_class = 2,需要定义在GPU上运行，所以将我们的模型加载到GPU即可，特别说明一下cls_head函数，本质就是nn.Linear(768,num_class)的一个全连接，作用在于将bert的池化输出结果转换为我们的任务数，得到pred为[batch_size,num_class]的一个张量。

2025-02-10 20:16:16 715

原创李哥考研复试项目班线性表示代码复现

param pred_y: 模型预测的目标值，是一个一维张量，形状为 (data_num,) 或 (data_num, 1)，表示有 data_num 个预测值。:param pred_y: 模型预测的目标值，是一个一维张量，形状为 (data_num,) 或 (data_num, 1)，表示有 data_num 个预测值。:param y:真实的目标值，是一个一维张量，形状为 (data_num,) 或 (data_num, 1)，表示有 data_num 个真实值。

2025-02-01 02:29:01 605

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示

确定要删除当前文章？

取消删除