在如今的生活里,AI 早已渗透到方方面面,成为我们习以为常的存在。当你用 ChatGPT 起草工作汇报、让智能音箱播放助眠白噪音、向手机助手查询通勤路线拥堵情况,或是在购物 APP 里用智能客服咨询商品售后时,这些便捷体验的背后,都离不开一个关键技术支撑 —— 大语言模型(LLM)。这个名字听起来充满科技感的技术,其实始终围绕着我们最基础的语言互动运转。今天,我们就用生活化的例子,一步步拆解大语言模型的工作原理,让复杂技术变得清晰易懂。
要理解大语言模型,我们得先从一个基础的数学概念说起 ——条件概率。它就像大语言模型 “思考” 的底层逻辑,没有搞懂它,就很难真正明白 LLM 是如何工作的。
我们先举个贴近生活的例子:假设公司有 20 名员工,在午休时间的活动选择上,大家的偏好各不相同:
- 10 人喜欢在休息室看剧
- 8 人喜欢去楼下咖啡馆聊天
- 其中有 5 人既喜欢看剧,也喜欢去咖啡馆(午休时会交替选择)
- 剩下的 2 人则更倾向于在工位上安静看书,不参与前两种活动
如果用一张 “偏好分布图” 来展示,就能清晰看到不同选择之间的重叠与差异(如下方图示):
那么究竟什么是条件概率呢?
所谓条件概率,是指在已经知道某个事件发生的情况下,另一个事件发生的概率。要是我们用事件A和事件B来代表这两个事件,它可以写成P(A|B),念作“在B发生的条件下,A发生的概率”。
下面有个直观的图示可供参考👇:
比如,我们预测今天是否下雨(事件A),如果已知天空阴云密布(事件B),我们预测下雨的可能性就会增加,这时我们就说条件概率P(A|B)比较高。这就是条件概率!
那么,这和GPT-4这样的LLM有什么关系呢?
大语言模型的任务就是预测句子里下一个单词会是什么,这本质上就是一个条件概率的问题:
已知前面出现的一系列单词(上下文),下一个单词最可能是什么?
为了预测下一个单词,模型会计算所有可能的单词在给定上下文条件下的条件概率,然后选择概率最高的那个单词作为预测结果。
大语言模型其实是在学习一个高维的单词序列的概率分布,而训练过程中调整的那些“参数”,就是这个概率分布中的权重。这个训练过程(或更准确地说是预训练过程)是有监督的。下一次,我会再深入介绍训练的具体过程,先看下面这张图理解一下👇:
不过,直接挑选概率最高的单词存在一个问题!
如果每次都选概率最高的单词,那么模型输出的内容就会变得非常重复、单调,让LLM变得毫无创意。这时候就要用到**温度(Temperature)**这个概念了。
先看下面的图,再来具体讲讲温度是什么👇:
但如果温度设置得太高,又会产生乱七八糟、毫无意义的内容。到底发生了什么呢?看下图👇:
到底什么是温度(Temperature)?
大语言模型并不是简单地选择得分最高的那个“词”(为简单起见,我们把token视为单词),而是会从概率分布中随机抽样(sampling):
即使“词1”的概率最高,也不一定会选中它,因为我们是从分布里抽样的。
温度值(T)在这个过程中,会对概率分布进行调整,影响抽样的结果:
我们再通过一段代码示例来更直观地理解:
- 当温度较低时,概率集中在最可能的单词附近,输出更倾向于确定的结果(几乎是“贪心”的)。
- 当温度较高时,概率变得更加均匀,输出的结果也更加随机和多样化。
看下面的示例代码图就更清楚了👇:
总结一下:
- LLM本质上是学习单词序列的条件概率。
- 每次预测下一个单词时,会根据已出现的上下文计算条件概率。
- 使用温度(Temperature)是为了控制生成结果的多样性和创造性。
那么,如何系统的去学习大模型LLM?
作为一名从业五年的资深大模型算法工程师,我经常会收到一些评论和私信,我是小白,学习大模型该从哪里入手呢?我自学没有方向怎么办?这个地方我不会啊。如果你也有类似的经历,一定要继续看下去!这些问题啊,也不是三言两语啊就能讲明白的。
所以我综合了大模型的所有知识点,给大家带来一套全网最全最细的大模型零基础教程。在做这套教程之前呢,我就曾放空大脑,以一个大模型小白的角度去重新解析它,采用基础知识和实战项目相结合的教学方式,历时3个月,终于完成了这样的课程,让你真正体会到什么是每一秒都在疯狂输出知识点。
由于篇幅有限,⚡️ 朋友们如果有需要全套 《2025全新制作的大模型全套资料》,扫码获取~
为什么要学习大模型?
我国在A大模型领域面临人才短缺,数量与质量均落后于发达国家。2023年,人才缺口已超百万,凸显培养不足。随着AI技术飞速发展,预计到2025年,这一缺口将急剧扩大至400万,严重制约我国AI产业的创新步伐。加强人才培养,优化教育体系,国际合作并进是破解困局、推动AI发展的关键。
👉大模型学习指南+路线汇总👈
我们这套大模型资料呢,会从基础篇、进阶篇和项目实战篇等三大方面来讲解。
👉①.基础篇👈
基础篇里面包括了Python快速入门、AI开发环境搭建及提示词工程,带你学习大模型核心原理、prompt使用技巧、Transformer架构和预训练、SFT、RLHF等一些基础概念,用最易懂的方式带你入门大模型。
👉②.进阶篇👈
接下来是进阶篇,你将掌握RAG、Agent、Langchain、大模型微调和私有化部署,学习如何构建外挂知识库并和自己的企业相结合,学习如何使用langchain框架提高开发效率和代码质量、学习如何选择合适的基座模型并进行数据集的收集预处理以及具体的模型微调等等。
👉③.实战篇👈
实战篇会手把手带着大家练习企业级的落地项目(已脱敏),比如RAG医疗问答系统、Agent智能电商客服系统、数字人项目实战、教育行业智能助教等等,从而帮助大家更好的应对大模型时代的挑战。
👉④.福利篇👈
最后呢,会给大家一个小福利,课程视频中的所有素材,有搭建AI开发环境资料包,还有学习计划表,几十上百G素材、电子书和课件等等,只要你能想到的素材,我这里几乎都有。我已经全部上传到CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
】
相信我,这套大模型系统教程将会是全网最齐全 最易懂的小白专用课!!