- 博客(8)
- 收藏
- 关注
原创 RMSNorm
llama在transformer架构上面用RMSNorm代替了传统的LayerNorm,大致是为了优化传统的归一化方法,提升模型的训练效果和稳定性?? 这个本人不得而知,不过既然llama用了,还是得学习。。难受一枚RMSNorm(Root Mean Square Normalization)就是处理输入向量的均方根进行归一化处理,而不依赖输入向量的均值,大体过程如下:其中x是我们的输入向量,d为输入的维度,公式一目了然,很简单其实就是做了一个简单的处理如下:正如其他的归一化处理一样,我们在BMSNorm
2025-04-01 15:34:46
976
原创 FastText简单使用
我们需要了解 Word2Vec 中的 Skip-Gram 和 CBOW 模型,以及负采样、层次 SoftMax 知识通过上下文(周围的词)预测中心词(目标词)。例如,给定句子 ,若窗口大小为2(左右各2个词),则对于中心词 ,上下文为 。输入层:上下文词的One-hot编码(多个词的平均或拼接)。隐藏层:将上下文词向量加权平均(或求和)为一个向量。输出层:通过Softmax预测中心词的概率分布。输入上下文词向量:vcontext=1C∑c=1Cvcvcontext=C1∑c=1Cvc(CC为上下文
2025-02-21 21:47:43
706
原创 简易CBOW模型(n-gram)编码
本文目的在于使用前两个词来去预测后面的词,效果在于理解word embedding层和得到一个词表,为了更好的理解word2vec模型架构1.超参数定义和测试数据CONTEXT_SIZE = 2 # 使用前2个词预测下一个词(类似CBOW)EMBEDDING_DIM = 10 # 词向量维度2.生成n-gram数据ngrams = [:生成形如的训练样本若句子为,则生成:embeddings层将索引映射为词向量将多个词向量拼接为一行(例如2个词→2x10→20维)
2025-02-20 02:06:30
893
原创 大语言模型LLM基础之Tokenizer
在理解需要Tokenizer之前,我们先看看nlp的输入是什么,以transformer架构为例如上图所示。而有了token之后,每一个token就会对应一个id 也是我们成为的向量,在经过embedding层之后,就会变为我们的向量,就是我们熟知的[batch_size,seq_length,d_model]的一个三维空间了因此,在这个过程中,tokenizer就是将离散的文本数据转换为连续的向量表示,使得模型能够更好地处理和理解文本数据。
2025-02-19 21:39:15
1187
原创 transformer学习
对于序列中的每个元素,计算其查询向量与所有键向量的点积,然后除以一个缩放因子(通常是隐藏层大小的平方根),以防止点积结果过大。自注意力机制通过计算序列中每个元素与其他所有元素的相关性(或注意力分数),来决定每个元素在序列中的重要性。batch_x (Tensor): 输入的token索引张量,形状为[batch_size, sequence_length]。batch_y (Tensor): 可选的目标标签张量,形状为[batch_size, sequence_length]。
2025-02-19 02:39:52
780
原创 初识CNN一些经典模型
输出尺寸 (4, 512, 14, 14) -> 输出尺寸 (4, 512, 7, 7)池化核大小为 2x2,stride 为 2。
2025-02-18 23:33:11
664
原创 Bert实战
2.定义myBertModel继承nn.Moudle,用于构建bert模型,其中bert_path路径同上,num_class为分类任务中的分类数,由于label标签只有好评与差评,所以num_class = 2,需要定义在GPU上运行,所以将我们的模型加载到GPU即可,特别说明一下cls_head函数,本质就是nn.Linear(768,num_class)的一个全连接,作用在于将bert的池化输出结果转换为我们的任务数,得到pred为[batch_size,num_class]的一个张量。
2025-02-10 20:16:16
715
原创 李哥考研复试项目班线性表示代码复现
param pred_y: 模型预测的目标值,是一个一维张量,形状为 (data_num,) 或 (data_num, 1),表示有 data_num 个预测值。:param pred_y: 模型预测的目标值,是一个一维张量,形状为 (data_num,) 或 (data_num, 1),表示有 data_num 个预测值。:param y:真实的目标值,是一个一维张量,形状为 (data_num,) 或 (data_num, 1),表示有 data_num 个真实值。
2025-02-01 02:29:01
605
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人