
大模型
文章平均质量分 89
大模型学习笔记
「已注销」
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
浙大 DeepSeek 线上课学习笔记
1. 采用MoE解决路由崩溃难题(1)传统的 Top-2 路由策略经典的 MoE(Mixture-of-Experts)架构,使用 Top-2 Routing 策略。由 N 个专家(Expert) 组成,路由器(Router)会为每个输入选择 K=2 个专家进行计算。计算结果通过加权求和后输出。(2)细粒度专家分割(Fine-grained Expert Segmentation)原创 2025-03-02 14:41:42 · 2303 阅读 · 0 评论 -
上下文学习&思维链COT&Prompt工程
上下文学习&思维链COT&Prompt工程原创 2025-03-13 23:12:17 · 977 阅读 · 0 评论 -
DeepSeek的使用方式和技巧
deepseek的介绍、使用方式和技巧原创 2025-02-08 11:27:10 · 2712 阅读 · 0 评论 -
大模型训练_硬件&微调&知识增强
大模型训练介绍:硬件、微调、知识增强原创 2025-01-15 21:41:23 · 1257 阅读 · 0 评论 -
llama-2-7b权重文件转hf格式及模型使用
llama权重文件转hf格式及模型使用原创 2025-01-22 18:25:06 · 1086 阅读 · 0 评论 -
对话小羊驼vicuna
内容包括:llama、alpaca、vicuna模型介绍,vicuna模型使用等。原创 2025-01-22 22:55:30 · 958 阅读 · 0 评论