前言
随着人工智能技术的飞速发展,大型语言模型(Large Language Model,简称LLM)逐渐成为自然语言处理(NLP)领域的研究热点。各类公众号、帖子涌现出了各种概念,AI、大模型、LLM、AI、AIGC、AGI、GPT、ChatGPT等等。总觉得被这些概念搞得头晕。本文梳理了大型语言模型的相关概念基础,以期为读者提供一个全面而清晰的认识。
一、人工智能全景
人工智能(AI)是计算机科学的一个分支,旨在模拟人类的智能来解决问题。而机器学习(ML)是AI的一个子集,它的魅力在于不需要显式编程。也就是说,我们不需要手动编写函数来告诉计算机如何执行任务,而是让计算机自行学习和迭代,从数据中识别模式,并做出预测和决策。
机器学习领域下有多个分支,包括监督学习、无监督学习和强化学习。
监督学习
学习带有标签的原始数据。目标是发现原始数据与标签之间的映射关系,从而预测新数据。
无监督学习
处理没有标签的数据,让计算机自主发现数据中的模式。
强化学习
让模型在环境中采取行动,并根据奖励或惩罚来调整策略,以找到最佳行动方案。
思考:上面提到了三个分类,那深度学习呢?深度学习属于监督学习、无监督学习还是强化学习嘞?
深度学习是机器学习的一个方法,它使用神经网络来模拟人脑处理信息的方式。神经网络由许多计算和存储单元(神经元)组成,这些神经元通过连接来处理数据。深度学习模型的“深度”指的是其层次化的结构,通过多层提取和表示数据的特征。
重要的是,神经网络可以用于监督学习、无监督学习和强化学习,因此深度学习并不属于这三者中的任何一个子集。相反,它们都是深度学习的应用领域。
二、AGI、AIGC、LLM联系与区别
AGI(通用人工智能)
AGI 是 Artificial General Intelligence(通用人工智能)的缩写,它指的是一种理论上的形式的人工智能,具有全面理解、学习和应用知识的能力,与人类智能在各方面上都相当或者超越。这种类型的AI能够理解、学习和应用其在一个领域学到的知识到任何其他领域。
通用人工智能与当前存在的人工智能(通常被称为弱人工智能或窄人工智能)有很大的不同。当前的AI系统通常在一个非常特定的任务或一组任务中表现出超人的性能,例如围棋、语言翻译、图像识别等,但它们缺乏在一个任务上学到的知识应用到其他任务的能力,也没有真正理解它们正在做什么的能力。
当前火热的GPT等大模型仍然是一种窄人工智能(Narrow AI)或特定人工智能(Specific AI)。它们被训练来执行特定的任务(在这种情况下是生成文本),而并不具有广泛的理解能力或适应新任务的能力,这是AGI的特征。
然而,GPT和AGI的关联在于,GPT是当前AI研究为实现AGI所做出的努力中的一部分。它表明了预训练模型的潜力,并给出了一种可能的路径,通过不断增加模型的规模和复杂性,可能会接近AGI。但是,这仍然是一个未解决的问题,并且需要更多的研究来确定这是否可行,以及如何安全有效地实现这一目标。
AIGC(生成式AI)
AIGC(Artificial Intelligence Generated Content / AI-Generated Content)中文译为人工智能生成内容,AIGC狭义概念是利用AI自动生成内容的生产方式。广义的AIGC可以看作是像人类一样具备生成创造能力的AI技术,即生成式AI,它可以基于训练数据和生成算法模型,自主生成创造新的文本、图像、音乐、视频、3D交互内容等各种形式的内容和数据,以及包括开启科学新发现、创造新的价值和意义等。
-
文生文:现在主流的大语言模型大部分都具有这一能力,比如ChatGPT、文心一言、通义千问、清华开源的ChatGLM等。
-
文生图:知名的开源项目有Stable Diffusion、Midjourney等。
趣谈:Lensa凭借应用里【魔法头像】的照片与视频编辑应用功能而风靡一时,这项功能由开源Stable Diffusion模型提供支持,允许用户将自己的自拍照快速转化为科幻、动漫或奇幻等风格样式,但它因创造过度性感的图像而受到批评。如果你使用过Stable Diffusion模型生成图片时,如果发现生成了全黑色的图片,不用怀疑,这是生成了少儿不宜的内容,由此可以猜测Stable Diffusion的图片来源是各类网站的图片,也包含了这些少儿不宜的内容。
下图列举了AIGC能做的事情:
LLM(大语言模型)
大语言模型(英文:Large Language Model,缩写LLM),也称大型语言模型,是一种人工智能模型,旨在理解和生成人类语言。它们在大量的文本数据上进行训练,可以执行广泛的任务,包括文本总结、翻译、情感分析等等。LLM的特点是规模庞大,包含数十、成百、上千亿的参数,这种模型可以捕获语言的复杂模式,包括句法、语义和一些上下文信息,从而生成连贯、有意义的文本。
GPT3、ChatGPT、BERT、T5、文心一言等都是典型的大型语言模型。
处理大量文本数据,具备深度理解和生成文本的能力。但并非所有大语言模型都擅长文本生成,有些更侧重于文本理解和分析。 例如,BERT模型是一个典型的大语言模型,它擅长理解上下文,因此被广泛应用于搜索、情感分析和文本分类等任务。然而,BERT并不擅长生成连贯的长文本
在某些应用中,AIGC可能会利用LLM来提升内容创造的质量和多样性,特别是在文本生成方面。
LLM可以被视为AIGC功能的一部分或基础支持,但其规模和复杂性远远超过一般的AI写作工具。
三、LLM相关概念
下图是近年来大语言模型的发展进化树
为了更清晰地理解 LLM 的整体图景,我们可将其分为三类:
(1)Encoder-Only(仅编码器)
(2)Encoder-Decoder(编码器 - 解码器编码器)
(3)Decoder-Only(仅解码器)
我们可以观察到一些有趣的结论:
a)仅解码器模型正逐渐成为 LLM 发展的主导模型。
b) 清华大学的GLM及ChatGLM在编码器 - 解码器编码器这一分类中独领风骚。
c) LLM 开发有闭源的趋势。在 LLM 发展的早期阶段(2020 年之前),绝大部分模型都是开源的。但是,随着 GPT-3 的推出,公司越来越倾向于选择闭源他们的模型.
3.1 GPT&ChatGPT
- GPT:GPT 是Generative Pre-trained Transformer 的缩写,即生成式预训练的Transformer模型。GPT模型是一种基于Transformer架构的语言模型,它能够预测文本序列中下一个单词或字符的概率。
- ChatGPT:ChatGPT是基于GPT模型的一种应用,它是OpenAI公司基于GPT模型开发的一个用于聊天的人工智能模型。ChatGPT是在GPT模型的基础上,通过对模型进行微调和训练,使其具备了可以进行对话的能力。因此,可以说ChatGPT是GPT模型在聊天应用场景中的一个具体实现。
3.2 GLM&ChatGLM
- GLM:GLM是General Language Model的缩写,即通用语言模型模型。
- ChatGLM:ChatGLM是基于GLM架构的对话语言模型,它由清华大学计算机系技术成果转化公司智谱AI开发,其中ChatGLM-6B是一个开源的、支持中英双语问答的对话,并针对中文进行了优化,具有62亿参数,结合模型量化技术,用户可以在消费级的显卡上进行本地部署(INT4 量化级别下最低只需6GB显存)。
刚刚我们提到了ChatGLM-6B,B是啥意思?上文中6B模型提供具有62亿参数,B就是英语单词Billion(十亿)的缩写,比如ollama模型下载页面会带上模型的参数,我们下载时可根据自己计算机或者服务器性能选择合适的参数
ollama模型页面
3.3 Transformer模型
2017 年,Google 在论文 Attentions is All you need(论文地址:https://arxiv.org/abs/1706.03762) 中提出了 Transformer 模型,其使用 Self-Attention 结构取代了在 NLP 任务中常用的 RNN 网络结构。
Transformer 本质上是一个 Encoder-Decoder 架构。因此中间部分的 Transformer 可以分为两个部分:编码组件和解码组件。
编码组件由多层编码器(Encoder)组成(在论文中作者使用了 6 层编码器,在实际使用过程中你可以尝试其他层数)。
解码组件也是由相同层数的解码器(Decoder)组成(在论文也使用了 6 层)。
Attentions is All you need这篇论文非常重要,从上面大语言模型的发展进化树可以看到2017年后涌现出了大量的研究成果及模型,都多多少少受到这篇论文里提到的思想的启发。
3.4 LLM领域相关新闻
1、2024年2月17日美国专利局拒绝OpenAI将“GPT”注册为商标
2、2024年9月17日通义千问重磅开源Qwen2.5,性能超越Llama
引用
1、一文搞懂ChatGPT相关概念和区别:GPT、大模型、AIGC、LLM、Transformer、羊驼、LangChain……
2、基础知识篇:大语言模型核心原理解析
3、Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond
4、大语言模型的进化树,这是一份超详细ChatGPT「食用」指南
5、Transformer 模型详解
系列文章
1. AI大语言模型LLM学习-入门篇
2. AI大语言模型LLM学习-Token及流式响应
3. AI大语言模型LLM学习-WebAPI搭建
4.AI大语言模型LLM学习-基于Vue3的AI问答页面
5.AI大语言模型LLM学习-语义检索(RAG前导篇)
6.AI大语言模型LLM学习-RAG技术及代码实现
7.AI大语言模型LLM学习-RAG知识点测试题(含答案)
8.AI大语言模型LLM学习-本地部署大语言模型(Ollama)
9.AI大语言模型LLM学习-Advanced RAG(高级检索增强生成)从理论到实战