
AI
文章平均质量分 86
AI
zhaojiew10
大道至简
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
图解gpt之Transformer架构与设计原理
Transformer架构彻底革新了自然语言处理范式,其核心在于并行计算的注意力机制而非传统的序列处理方式。该模型由编码器和解码器组成:编码器通过多头自注意力机制提取输入序列特征,解码器则结合编码器信息和自身生成序列逐步输出结果。关键创新包括位置编码解决并行处理的位置感知问题,残差连接和层归一化稳定深层网络训练,以及自注意力机制捕捉长距离依赖关系。这种架构催生了BERT、GPT等突破性模型,成为现代NLP系统的基石。原创 2025-05-30 17:11:48 · 2034 阅读 · 0 评论 -
图解gpt之注意力机制原理与应用
大家有没有注意到,当序列变长时,比如翻译一篇长文章,或者处理一个长句子,RNN这种编码器就有点力不从心了。它把整个序列信息压缩到一个固定大小的向量里,信息丢失严重,而且很难记住前面的细节,特别是对于长距离依赖关系,比如一个句子开头的主语和后面动词的搭配关系,RNN可能就忘了。所以,我们需要一种更聪明的方法,让模型能够像我们人类一样,看问题的时候,知道哪些地方是重点,哪些地方可以忽略。这就是我们今天要讲的注意力机制。原创 2025-05-30 17:09:22 · 1456 阅读 · 0 评论 -
AI应用分布式框架ray的设计细节和理念
Ray通过统一任务并行和Actor模型,构建了一个动态执行引擎,采用分层架构(应用层和系统层)和分布式全局控制存储(GCS)实现高效调度和容错。关键创新包括:分布式调度器避免单点瓶颈,内存对象存储减少数据移动,以及基于血缘的容错机制。原创 2025-05-30 00:27:00 · 1354 阅读 · 0 评论 -
sagemaker中使用pytorch框架的DLC训练和部署cifar图像分类任务
参考资料。原创 2024-11-19 23:40:56 · 411 阅读 · 0 评论