自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

原创 RMSNorm

llama在transformer架构上面用RMSNorm代替了传统的LayerNorm,大致是为了优化传统的归一化方法,提升模型的训练效果和稳定性?? 这个本人不得而知,不过既然llama用了,还是得学习。。难受一枚RMSNorm(Root Mean Square Normalization)就是处理输入向量的均方根进行归一化处理,而不依赖输入向量的均值,大体过程如下:其中x是我们的输入向量,d为输入的维度,公式一目了然,很简单其实就是做了一个简单的处理如下:正如其他的归一化处理一样,我们在BMSNorm

2025-04-01 15:34:46 976

原创 FastText简单使用

我们需要了解 Word2Vec 中的 Skip-Gram 和 CBOW 模型,以及负采样、层次 SoftMax 知识通过上下文(周围的词)预测中心词(目标词)。例如,给定句子 ,若窗口大小为2(左右各2个词),则对于中心词 ,上下文为 。输入层:上下文词的One-hot编码(多个词的平均或拼接)。隐藏层:将上下文词向量加权平均(或求和)为一个向量。输出层:通过Softmax预测中心词的概率分布。输入上下文词向量:vcontext=1C∑c=1Cvcvcontext​=C1​∑c=1C​vc​(CC为上下文

2025-02-21 21:47:43 706

原创 简易CBOW模型(n-gram)编码

本文目的在于使用前两个词来去预测后面的词,效果在于理解word embedding层和得到一个词表,为了更好的理解word2vec模型架构1.超参数定义和测试数据CONTEXT_SIZE = 2 # 使用前2个词预测下一个词(类似CBOW)EMBEDDING_DIM = 10 # 词向量维度2.生成n-gram数据ngrams = [:生成形如的训练样本若句子为,则生成:embeddings层将索引映射为词向量将多个词向量拼接为一行(例如2个词→2x10→20维)

2025-02-20 02:06:30 893

原创 大语言模型LLM基础之Tokenizer

在理解需要Tokenizer之前,我们先看看nlp的输入是什么,以transformer架构为例如上图所示。而有了token之后,每一个token就会对应一个id 也是我们成为的向量,在经过embedding层之后,就会变为我们的向量,就是我们熟知的[batch_size,seq_length,d_model]的一个三维空间了因此,在这个过程中,tokenizer就是将离散的文本数据转换为连续的向量表示,使得模型能够更好地处理和理解文本数据。

2025-02-19 21:39:15 1187

原创 transformer学习

对于序列中的每个元素,计算其查询向量与所有键向量的点积,然后除以一个缩放因子(通常是隐藏层大小的平方根),以防止点积结果过大。自注意力机制通过计算序列中每个元素与其他所有元素的相关性(或注意力分数),来决定每个元素在序列中的重要性。batch_x (Tensor): 输入的token索引张量,形状为[batch_size, sequence_length]。batch_y (Tensor): 可选的目标标签张量,形状为[batch_size, sequence_length]。

2025-02-19 02:39:52 780

原创 初识CNN一些经典模型

输出尺寸 (4, 512, 14, 14) -> 输出尺寸 (4, 512, 7, 7)池化核大小为 2x2,stride 为 2。

2025-02-18 23:33:11 664

原创 Bert实战

2.定义myBertModel继承nn.Moudle,用于构建bert模型,其中bert_path路径同上,num_class为分类任务中的分类数,由于label标签只有好评与差评,所以num_class = 2,需要定义在GPU上运行,所以将我们的模型加载到GPU即可,特别说明一下cls_head函数,本质就是nn.Linear(768,num_class)的一个全连接,作用在于将bert的池化输出结果转换为我们的任务数,得到pred为[batch_size,num_class]的一个张量。

2025-02-10 20:16:16 715

原创 李哥考研复试项目班线性表示代码复现

param pred_y: 模型预测的目标值,是一个一维张量,形状为 (data_num,) 或 (data_num, 1),表示有 data_num 个预测值。:param pred_y: 模型预测的目标值,是一个一维张量,形状为 (data_num,) 或 (data_num, 1),表示有 data_num 个预测值。:param y:真实的目标值,是一个一维张量,形状为 (data_num,) 或 (data_num, 1),表示有 data_num 个真实值。

2025-02-01 02:29:01 605

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除