我19年入行人工智能 NLP 领域,那时还是传统机器学习/RNN/CNN 的天下。虽然17和18年 Transformer和 Bert 陆续发布,但国内在 NLP 领域的主要应用还是 TF-IDF/Word2Vec/LSTM 为主,实体识别用 CRF,可能现在很多同学都没听过。
那时 B 站连一个讲解 Transformer 的都没有,当时觉得多头注意力机制怎么这么复杂。我从那时起就开始在网上写了很多技术帖子,比如《精通Pytorch》系列、《撸串NLP》系列等等文章。
ChatGPT 的发布给 AI 领域带来了颠覆性变革,让这一领域成为全球科技圈的核心焦点。我有幸早早入行,见证并参与了大模型从零到亿从无到有的整个过程。
在工作与学习中,我不断记录对大模型的理解,原创了不少清晰易懂的图解进行分享,广受同学们好评。但是日常分享不成体系,不易查阅。这次我花费了很多时间和精力,把大模型的学习笔记按顺序整理成了 8 章,包含了清晰的学习路径与对应的知识点详解,覆盖了从理论基础到工程实践、从模型训练到落地优化的完整知识体系。
Chapter 1:大模型必备基础
这是入门的底层逻辑。自谷歌 2017 年提出 Transformer 架构后,自然语言处理(NLP)领域便正式开启了大模型时代。不过,如今我们常说的大模型,在多数语境下更特指大语言模型(Large Language Models,LLMs)。由于大语言模型是在 NLP 的基础上发展而来,所以学习大语言模型,首先需要掌握一定的 NLP 基础知识:
-
词向量(Embedding):大模型理解语言的起点,将文本转化为可计算的向量表示,是后续所有模型运算的基础。
-
Token与分词器:决定模型如何切割文本,如BPE、BBPE等等,直接影响输入格式和模型性能。
-
神经网络拟合能力:从理论上理解“为什么大模型能学习复杂任务”(万能近似定理的延伸),建立对模型能力的认知边界。
-
Transformer Encoder/Decoder:大模型的核心架构(BERT用Encoder,GPT用Decoder,多模态模型常混合使用),掌握其注意力机制、层结构,才能理解后续的训练、微调逻辑。
Chapter 2:大模型训练与推理
聚焦大模型从0到1的诞生,以及如何高效输出结果:
-
预训练:让模型学习通用知识,是大模型能推理的前提。
-
SFT(有监督微调):对齐人类指令,让模型学会执行具体任务,让GPT学会问答。
-
RL基础与Reward模型:支撑RLHF强化学习从人类反馈,是大模型对齐人类偏好的关键(。
-
推理策略与优化(DPO/GRPO):解决如何让模型高效生成优质结果,从采样策略到偏好优化,直接影响落地体验。
Chapter 3:蒸馏与微调
在具体业务场景中,开源基础大模型往往缺乏针对垂直领域的专业能力。所以要结合特定业务场景的实际数据对模型进行微调,或利用优质模型的输出数据对小模型实施数据蒸馏,以此提升模型在垂直领域的适配性与效能,常用的方法如下:
-
Prompt/Prefix/Adapter Tuning:低资源微调方法,只需更新部分参数,让大模型快速适配垂直场景(如医疗、法律)。
-
LoRA/QLoRA:当前最主流的高效微调技术,通过低秩矩阵分解与量化技术减少计算量与显存,大幅降低训练成本。
-
数据蒸馏:把大模型的知识压缩到小模型里如让小模型拥有大模型的推理能力,实现轻量化部署。
Chapter 4:大模型的评估方法
没有评估,就无法判断模型好坏:
-
BLEU/ROUGE:文本生成的经典指标(如翻译、摘要任务),衡量输出与参考文本的匹配度。
-
Perplexity(困惑度):评估模型对文本的预测能力(值越低,模型越“自信”),常用于预训练阶段。
-
大海捞针/Benchmark:前者检验模型在极端长尾任务的能力,后者通过多任务测试全面评估模型性能,梳理了目前主流的大模型测试评估数据集。
Chapter 5:大模型优化技术
前文介绍的大模型架构、RLHF训练方法都是大模型基础的方法。但除了OpenAI-GPT外,还有很多厂家都出了自己的模型,比如最先开源的LLaMA,中国爆火的Deepseek、Qwen等等,而这些厂家都在OpenAI-GPT的基础上做了自己创新点优化技术,比如LLaMA使用了RoPE编码、Deepseek创新了MLA、NSA等算法。同时,很多大佬基于降低显存和提高运算速度创新了很多基于Transformer架构的加速算法,比如KV Cache、Flash Attention、混合精度训练等等。
Chapter 6:模型家族梳理
前文介绍了大模型的优化方法,可以说是百家齐放。在实际中,可以持续投入研发的大模型其实并不多,而且有很多闭源模型比如Openai等,其实我们并不知道它具体的技术细节,而一直坚持开源可供学习的其实屈指可数,这章梳理了openAI-GPT、LLaMA、DeepSeek、Qwen等开源模型的迭代过程。
Chapter 7:分布式训练
随着大模型参数量的爆炸性增长,其所需内存也呈爆炸性增长,最现实的问题就是单块显卡装不下模型,所以我们需要进行分布式训练。 本章梳理了分布式训练的常用方法与框架:
Chapter8:高频面试集
这章汇总了大模型算法岗面试的重点考点与高频考点,还有常见手撕代码题的汇总:
我们该怎样系统的去转行学习大模型 ?
很多想入行大模型的人苦于现在网上的大模型老课程老教材,学也不是不学也不是,基于此,我用做产品的心态来打磨这份大模型教程,深挖痛点并持续修改了近100余次后,终于把整个AI大模型的学习门槛,降到了最低!
第一不需要具备任何算法和数学的基础
第二不要求准备高配置的电脑
第三不必懂Python等任何编程语言
您只需要听我讲,跟着我做即可,为了让学习的道路变得更简单,这份大模型教程已经给大家整理并打包,现在将这份 LLM大模型资料
分享出来: 😝有需要的小伙伴,可以 扫描下方二维码领取🆓↓↓↓
一、大模型经典书籍(免费分享)
AI大模型已经成为了当今科技领域的一大热点,那以下这些大模型书籍就是非常不错的学习资源。
二、640套大模型报告(免费分享)
这套包含640份报告的合集,涵盖了大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。(几乎涵盖所有行业)
三、大模型系列视频教程(免费分享)
四、2025最新大模型学习路线(免费分享)
我们把学习路线分成L1到L4四个阶段,一步步带你从入门到进阶,从理论到实战。
L1阶段:启航篇丨极速破界AI新时代
L1阶段:我们会去了解大模型的基础知识,以及大模型在各个行业的应用和分析;学习理解大模型的核心原理、关键技术以及大模型应用场景。
L2阶段:攻坚篇丨RAG开发实战工坊
L2阶段是我们的AI大模型RAG应用开发工程,我们会去学习RAG检索增强生成:包括Naive RAG、Advanced-RAG以及RAG性能评估,还有GraphRAG在内的多个RAG热门项目的分析。
L3阶段:跃迁篇丨Agent智能体架构设计
L3阶段:大模型Agent应用架构进阶实现,我们会去学习LangChain、 LIamaIndex框架,也会学习到AutoGPT、 MetaGPT等多Agent系统,打造我们自己的Agent智能体。
L4阶段:精进篇丨模型微调与私有化部署
L4阶段:大模型的微调和私有化部署,我们会更加深入的探讨Transformer架构,学习大模型的微调技术,利用DeepSpeed、Lamam Factory等工具快速进行模型微调。
L5阶段:专题集丨特训篇 【录播课】
全套的AI大模型学习资源已经整理打包
,有需要的小伙伴可以微信扫描下方二维码
,免费领取