Qwen2.5模型结构

最新推荐文章于 2025-06-06 18:16:32 发布

原创最新推荐文章于 2025-06-06 18:16:32 发布 · 658 阅读

·

5

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#人工智能 #pytorch

self.lm_head = nn.Linear(config.hidden_size, config.vocab_size, bias=False) 这个是用来干嘛的

输出层，词汇投影层，将模型输出的隐藏状态向量映射回词表空间，用于预测下一个token

# 预测 logits，未经过 softmax

lm_logits = self.lm_head(hidden_states) # shape: [B, L, vocab_size]

之后再通过 softmax 转换为每个 token 的概率。

class Qwen2Model(Qwen2PreTrainedModel):

def __init__(self, config):

super().__init__(config)

self.embed_tokens = nn.Embedding(config.vocab_size, config.hidden_size)

self.layers = nn.ModuleList([

Qwen2DecoderLayer(config) for _ in range(config.num_hidden_layers)

]) #这里由config文件决定的有很多很多层

self.norm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)

每一层结构

class Qwen2DecoderLayer(nn.Module):

def __init__(self, config):

...

self.self_attn = Qwen2Attention(config)

self.mlp = Qwen2MLP(config)

self.input_layernorm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)

self.post_attention_layernorm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)

def forward(self, hidden_states, ...):

residual = hidden_states

hidden_states = self.input_layernorm(hidden_states)

hidden_states, _ = self.self_attn(hidden_states, ...)

hidden_states = residual + hidden_states

residual = hidden_states

hidden_states = self.post_attention_layernorm(hidden_states)

hidden_states = self.mlp(hidden_states)

hidden_states = residual + hidden_states

return hidden_states, ...

self.mlp = Qwen2MLP(config) 这个是什么

标准Transformer FFN

class TransformerFFN(nn.Module):

def __init__(self, embed_dim, hidden_dim):

super().__init__()

self.linear1 = nn.Linear(embed_dim, hidden_dim)

self.relu = nn.ReLU()

self.linear2 = nn.Linear(hidden_dim, embed_dim)

def forward(self, x):

return self.linear2(self.relu(self.linear1(x)))

博客等级

码龄7年

40
原创

145
点赞

128
收藏

78
粉丝

关注

私信

热门文章

分类专栏

上一篇：: Qwen2.5简要全流程以及Q&A

下一篇：: stable Diffusion模型结构

最新评论

SA-1B数据集转COCO数据集
Rocklyx: 你把这个超大的文件重命名加上压缩包的后缀再解压，就可以得到图片和json了
SA-1B数据集转COCO数据集
weixin_59049527: def write_a_line(name, arr): try: with open(name, 'a') as file: for i in range(len(arr)): for j in range(len(arr[i])): if j == 0: file.write('0 ') for elements in arr[i][j]: file.write(str(elements) + " ") else: for elements in arr[i][j]: file.write(str(elements) + " ") file.write("\n") except PermissionError as e: print(f"Permission denied: {e}") 把write_a_line函数里面的i==0去掉，才能通过训练时的数据集检验
SA-1B数据集转COCO数据集
2401_85858181: 为什么我在openDataLab下的数据集也没有json文件
SA-1B数据集转COCO数据集
weixin_59049527: 请问现在解决了嘛大佬
SA-1B数据集转COCO数据集
普通网友: 您好请问您是这个代码直接运行的吗可视化出来是正常的吗

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。