❝
一句话概括:彻底抛弃给AI装两套系统(一套理解,一套生成)的笨办法,直接把图像编码成LLM能听懂的“黑话”,实现了真正的“读写合一”。(原论文题目见文末,点击阅读原文可直接跳转至原文链接,Published on arxiv on 23 Jun 2025, by CUHK MMLab & ByteDance Seed)
*第一阶段:识别核心概念*
*论文的motivation分析*
这篇论文的出发点非常明确和宏大:实现真正统一的视觉理解与生成。
目前,多模态大语言模型(MLLM)在“看懂”图片方面(视觉理解)已经取得了巨大成功,例如,可以为图片生成详细的描述或回答相关问题。然而,一个更高级、更像人类的智能体不仅应该能“看”,还应该能“画”(视觉生成)。现有的方法在试图同时做到这两点时,遇到了一个根本性的**“认知分裂”**问题。
作者将这个问题归结为三个核心的设计选择上的矛盾:
- 分离 vs. 共享 (Separate vs. Shared):很多模型为“理解”和“生成”任务使用两套完全不同的视觉表示。例如,用CLIP特征来理解图像的高层语义,用VQVAE的像素级编码来生成图像。这种分离使得模型内部存在两种不兼容的“视觉语言”,导致无法进行流畅的、需要同时理解和生成的复杂任务,比如多轮对话式图像编辑。
- 连续 vs. 离散 (Continuous vs. Discrete):用于理解的视觉特征通常是连续的(如CLIP向量),这保留了丰富的细节,但难以融入以离散token为基础的自回归语言模型生成框架。而离散的视觉token(如VQVAE码本)虽然与LLM天然兼容,但存在量化误差,可能损失视觉细节。
- 像素 vs. 语义 (Pixel vs. Semantic):像素级的表示(如VQVAE)关注图像的底层细节和纹理,但可能缺乏高层语义理解。而语义级的表示(如CLIP)擅长捕捉“图片里有什么”的宏观概念,却难以复原高清的图像细节。
这篇论文的动机,就是彻底解决这种“认知分裂”。作者设想了一种更优雅、更统一的方案:不再让视觉和语言成为两种独立的模态,而是将视觉视为语言的一种“方言”。通过构建一个共享的、离散的、语义对齐的表示空间,让模型能够用同一种“思维方式”来处理和产出视觉与文本内容,从而实现真正意义上的感知、推理与创造的一体化。
*论文主要贡献点分析*
主要创新点:
- 提出一种全新的视觉表示方法:文本对齐的视觉表示 (Tar),其核心是一个名为 Text-Aligned Tokenizer (TA-Tok) 的组件。这是论文最核心的创新。
- 引入两种互补的生成式解码器 (Generative De-Tokenizers):一个快速的自回归模型和一个高质量的扩散模型,以适应不同的生成需求。
- 设计了新颖的统一预训练任务,如图像到图像 (I→I) 和文图到图像 (TI→I),以增强模型的跨模态融合能力。
- 提出了一个名为
Self Reflect
的策略,利用模型自身的理解能力来评估和优化其生成质量。
支撑创新的关键技术:
- 文本对齐码本 (Text-Aligned Codebook):这是支撑
TA-Tok
的关键。它不像传统VQVAE那样随机初始化码本,而是直接利用预训练LLM自身的词向量嵌入(Embeddings)作为码本的基础。通过一个可学习的投影层进行微调,使得每个“视觉词元”都与一个真实的“文本词元”在语义上强相关。这从根本上保证了视觉和文本的“语言”是相通的。 - 尺度自适应池化与解码 (Scale-Adaptive Pooling and Decoding):该技术允许模型根据任务需求,将图像编码成不同长度的视觉token序列。例如,生成任务可以用较少的粗粒度token来提高效率,而精细的理解任务则可以用更多的细粒度token来捕捉细节。这为在效率和细节之间取得平衡提供了灵活的控制手段。
显著性结果:
这篇论文最显著的结果,并非仅仅在某个指标上超越了之前的SOTA模型,而是它证明了一种全新的、更简洁的统一范式的可行性和优越性。它表明:
- 一个完全离散、语义化、共享的表示,不仅不会因为量化而损失过多性能,反而能够与甚至超越那些使用复杂连续特征或混合表示的模型。
- 通过将视觉信息“翻译”成LLM能够原生理解的“方言”,可以极大地简化模型架构,消除不同模态间的适配器或特殊设计,让整个训练和推理过程更加高效和统一。
- 这种统一范式使得理解和生成任务可以相互促进。实验(Table 6)明确显示,在共享表示下,联合训练两个任务能显著提升性能,尤其是在生成任务上,这验证了“看”得更懂有助于“画”得更好。
*理解难点识别*
理解论文的关键概念/方法:
- Text-Aligned Tokenizer (TA-Tok):这是理解整篇论文的钥匙。
- Text-Aligned Codebook 的初始化与训练:这是
TA-Tok
的核心机制。 - Generative De-Tokenizer 的作用:它如何将
TA-Tok
产出的语义token转换回真实图像。 - 整个模型(Tar)的端到端工作流:从输入到输出,信息是如何在不同组件间流动的。
最具挑战性的部分:
最具挑战性的概念是 “如何将视觉特征与LLM的文本词汇对齐”。传统上,我们认为图像的局部块(patch)和语言中的一个词(word)是完全不同性质的东西。这篇论文的核心思想就是要在高维语义空间中为它们建立一座桥梁。读者可能会困惑:
- 一个图像块的视觉信息,怎么就能对应到“猫”、“桌子”或者“奔跑”这些词的向量表示上?
- “用LLM词汇表初始化码本”具体是怎么操作的?为什么这样做有效?
- 这个过程和传统的VQVAE到底有什么本质区别?
需要重点解释的核心概念:
因此,我们最需要深入解释的核心概念就是 Text-Aligned Tokenizer (TA-Tok) 及其背后的文本对齐码本 (Text-Aligned Codebook) 的工作原理。
*概念依赖关系*
这些核心概念之间存在清晰的依赖关系,这为我们找到了一个完美的解释切入点:
- 最佳切入点:Text-Aligned Tokenizer (TA-Tok)。它是所有后续步骤的基础。
TA-Tok
的输出是一串离散的、语义化的“视觉词元”。- 这个“视觉词元”序列是输入到 Unified MLLM (Tar) 中的视觉部分,LLM在此基础上进行理解或生成。
- 如果LLM生成了新的“视觉词元”序列,这个序列将作为输入被送入 Generative De-Tokenizer。
Generative De-Tokenizer
的输出就是最终的像素图像。
整个流程像一个接力赛,而 TA-Tok
是第一棒,也是最关键的一棒。理解了它,后面的环节就豁然开朗。
*第二阶段:深入解释核心概念*
*设计生活化比喻:一位精通多国语言的美食家*
想象一下,有一位世界顶级美食家,我们叫他“Chef LLM”。
- Chef LLM 的母语是“文本”:他能阅读和撰写世界上最详尽、最生动的食谱和美食评论。他的大脑里有一本巨大的《美食词典》,包含了“咸”、“甜”、“酥脆”、“入口即化”等成千上万个描述味道和口感的词汇。
- 他遇到的挑战:当他品尝一道新菜(输入一张图片)时,他尝到的是复杂的、连续的味觉信号(图像的连续视觉特征)。他想把这种独特的味道记录下来,但直接用味觉信号记录太复杂了。他希望用他最擅长的“文本语言”来描述和记录这道菜的味道。
- 他的目标:创造一个系统,能将任何菜品的复杂“味道”自动转换成他《美食词典》里最贴切的几个“味道词汇”组合。这样,他不仅能“理解”这道菜,还能根据这些“味道词汇”去“创造”一道新菜。
这个系统,就是我们论文中的 Text-Aligned Tokenizer (TA-Tok)。
*建立比喻与实际技术的对应关系*
让我们把这个比喻和论文中的技术概念一一对应起来:
比喻中的元素 | 对应的实际技术概念 | 合理性解释 |
---|---|---|
Chef LLM | 预训练的大语言模型 (LLM) | 模型的“大脑”,原生处理文本信息。 |
一道新菜品 | 输入图像 (Image) | 需要被理解和编码的视觉模态输入。 |
复杂的味觉信号 | 连续的视觉特征 (Image Features, ) | 图像经过SigLIP2等视觉编码器后得到的初始高维向量。 |
Chef LLM的《美食词典》 | LLM的词向量嵌入矩阵 (LLM Embeddings, ) | LLM中每个文本token对应的向量表示,是LLM的“母语”知识库。 |
通用的《味道词典》 | 文本对齐码本 (Text-Aligned Codebook, ) | TA-Tok的核心,一个由离散“视觉词元”组成的码本。 |
一个“味道词汇” | 一个码本向量/视觉词元 (Codebook Vector, ) | 《味道词典》中的一个条目,代表一种特定的视觉语义。 |
味道转换器 | TA-Tok 编码器部分 (SigLIP2 + SA Pooling) | 将菜品(图像)转换成味觉信号(连续视觉特征)的设备。 |
可调节的“味觉滤镜” | 可学习的投影矩阵 (Projection Matrix, ) | TA-Tok中唯一需要重点训练的部分,用于微调词典,使其更适合描述“味道”。 |
最终的“味道笔记” | 量化后的离散视觉token () | 图像被TA-Tok处理后得到的“视觉词元”序列。 |
这个比喻的核心在于**“对齐”和“转换”。美食家不是凭空创造一套新的味道描述系统,而是在他已有的语言系统基础上,进行微调和适配,使其能精准描述味觉。这完美地解释了论文的核心思想:不为视觉单独设计一套表示,而是让视觉表示“屈身”于**、对齐于现有的文本表示,成为文本语言的一个“方言”。
*深入技术细节*
现在,我们从比喻回到技术本身。TA-Tok
的目标是将一张图像转换成一串离散的、LLM能理解的token。
它的核心是那个**文本对齐码本 **。它不是随机生成的,而是通过以下公式定义的:
原始数学形式 (Formula 1):
符号替换版本:
❝
最终的视觉码本() = [LLM的原始文本词向量嵌入()] 经过 [一个可学习的投影矩阵()进行变换]
- (LLM Embeddings): 这是一个巨大的矩阵,每一行代表LLM词汇表中的一个词(比如“猫”、“蓝色”、“奔跑”)的向量。这个矩阵在训练
TA-Tok
时是冻结的,我们不改变LLM对语言的基本理解。在比喻中,这就是Chef LLM那本固定不变的《美食词典》。 - (Projection Matrix): 这是一个相对较小的、可训练的矩阵。它的作用就像一个“适配器”或“滤镜”。它对中的每个词向量进行轻微的线性变换,生成一个新的向量。这个变换的目的是让文本词汇的语义能更好地捕捉到视觉世界的细微差别。在比喻中,这就是Chef LLM为了描述味道而专门设计的“味觉滤镜”,它微调了“甜”这个词的含义,让它能更精确地描述“水果的甜”还是“焦糖的甜”。
- (Codebook): 和相乘的结果,就是我们最终的“视觉码本”。这个码本里的每一个“视觉词元”都源自于一个真实的“文本词元”,因此天然地与文本语义对齐。
训练过程的目标函数 (Loss Function)
TA-Tok
的训练有两个主要目标,体现在它的损失函数中:
原始数学形式 (Formula 3):
这个公式看起来复杂,但其实是Vector Quantization (VQ) 中的标准形式,包含两个部分。我们用比喻来拆解它:
第一部分: (Codebook Loss)
- : 图像经过编码后得到的连续视觉特征。在比喻中,这是品尝一道菜后得到的复杂味觉信号。
- : 代表
stop-gradient
,意味着这部分不参与的梯度更新。我们可以把它看作是当前固定不变的《味道词典》。 - 含义: 这个部分的目标是,调整 的产生过程(即TA-Tok的编码器),使得味觉信号尽可能地靠近词典里那个最匹配的味道词汇。简单说,就是优化“品尝”的过程,让尝出的味道更“标准”。
第二部分: (Commitment Loss)
- : 我们要更新的**《味道词典》**。
- : 固定的味觉信号。
- 含义: 这个部分的目标是,调整**《味道词典》**,让词典里被选中的那个*味道词汇向实际尝到的味觉信号靠拢。简单说,就是更新词典,让词汇的定义更贴近真实的味道*。
由于 且 是冻结的,所以更新实际上就是在更新那个可学习的**投影矩阵 **(味觉滤镜)。
*将技术细节与比喻相互映射*
让我们把整个流程串起来:
-
输入: 拿到一张金毛犬的图片(一道新菜)。
-
编码:
TA-Tok
的视觉编码器(SigLIP2)处理图片,得到一堆高维向量(尝到了复杂的味觉信号)。 -
量化/查词典: 对于每个高维向量,在**文本对齐码本 **(《味道词典》)中找到距离最近的那个码本向量(找到最匹配的“味道词汇”,比如“毛茸茸”、“金色”、“友好”)。这一步完成了从连续视觉特征到离散语义token的转换。
-
训练与更新:
-
- 根据Commitment Loss,模型会微调投影矩阵 (味觉滤镜),让“毛茸茸”、“金色”这些词的“视觉版”定义更贴近这只金毛犬的真实样子。
- 根据Codebook Loss,模型会微调视觉编码器,让它下次再看到类似的狗时,能产生更“标准”的、更容易被词典匹配的特征。
-
局限性: 这个比喻简化了高维向量空间的操作,但它精准地捕捉了**“用已知语言体系去适配新模态”**这一核心思想,而不是从零开始创造。
*总结*
通过这个美食家比喻,我们可以这样总结 TA-Tok
的核心原理:
它没有为视觉信息发明一套全新的语言,而是巧妙地借用并改造了LLM已有的文本语言系统。它通过一个可学习的“滤镜”(投影矩阵),将LLM的文本词汇适配成了能够描述视觉世界的“方言”。
最终,图像被转换成了一串LLM“看得懂”的、带有明确语义的离散token。这就像美食家最终的品尝笔记,它使用的词汇(如“鲜美”、“多汁”)都来自于他原本的语言体系,这使得他后续的理解、推理和再创造(写新食谱)变得无缝且高效。这正是这篇论文实现“视觉与生成大统一”的基石。
*第三阶段:详细说明流程步骤*
*流程一:文本到图像生成 (Text-to-Image Generation)*
假设我们的任务是根据文本提示“一只戴着草帽的小猫在沙滩上看日落”来生成一张图片。
步骤 1:输入与编码
- 输入: 文本提示 “一只戴着草帽的小猫在沙滩上看日落”。
- 处理: 这段文本首先被送入
Tar
模型内部的LLM。LLM的文本分词器会将其转换成一串标准的文本token,例如['一只', '戴着', '草帽', '的', '小猫', ...]
。
步骤 2:自回归生成“视觉词元”
- 核心任务: LLM的任务是根据输入的文本token,预测下一个token。为了引导它生成图像而不是继续生成文本,输入序列的末尾会被添加一个特殊的提示符,例如论文中提到的
<|im_start|>
。这个提示符就像一个指令,告诉LLM:“接下来,请开始‘画画’”。 - 生成过程: LLM开始进行自回归生成。但它生成的不是普通文本token,而是从它扩展后的词汇表中选择特殊的视觉词元(Visual Tokens)。这些视觉词元就是我们在第二阶段深入讨论的,由
TA-Tok
的文本对齐码本C
所定义的那些token,例如$\\lt$I8$\\gt$
,$\\lt$I1024$\\gt$
,$\\lt$I53$\\gt$
等。 - 输出: 经过这一步,LLM会输出一个视觉词元序列,例如
[$\\lt$I8$\\gt$, $\\lt$I1024$\\gt$, $\\lt$I53$\\gt$, ..., $\\lt$I_end$\\gt$]
。这个序列的长度是固定的(例如,取决于TA-Tok
的尺度,可能是169或729个token)。 - 关键点: 这个序列不是图像,而是一个高度浓缩的、离散化的语义描述。它就像一幅画的“设计草稿”或“语义骨架”,在共享的语义空间中描述了图像应该包含哪些视觉概念以及它们如何排布。这个序列是步骤2的输出,同时也是步骤3的输入。
步骤 3:通过生成式解码器(Generative De-Tokenizer)解码
-
输入: 上一步生成的视觉词元序列
[$\\lt$I8$\\gt$, $\\lt$I1024$\\gt$, $\\lt$I53$\\gt$, ...]
。 -
选择解码器: 此时,我们可以选择两种解码器中的一种,比如追求速度的AR-DTok(自回归解码器)或追求高质量的Dif-DTok(扩散解码器)。我们以AR-DTok为例。
-
解码过程: AR-DTok将输入的语义视觉词元序列作为条件(Condition)。它的工作很像一个翻译家,任务是把这种高层的“语义语言”翻译成底层的“像素语言”。具体来说,AR-DTok会自回归地生成另一组完全不同的、低级别的、与像素紧密相关的离散token。这些低级token通常来自一个标准的VQVAE模型的码本,其目的是重建图像的细节和纹理。
-
输出: AR-DTok的输出是一个低级像素token序列。这个序列依然不是图像,但它包含了重建图像所需的所有底层像素信息。它是步骤3的输出,也是步骤4的输入。
步骤 4:最终图像重建
- 输入: 上一步生成的低级像素token序列。
- 处理: 这个序列被送入与AR-DTok配对的VQVAE解码器。
- 输出: VQVAE解码器将这串像素token“拼接”起来,最终重建出我们期望的最终像素图像——一只戴着草帽的小猫在沙滩上看日落。
至此,一个完整的文生图流程结束。整个过程像一个信息传递链:文本 -> 语义视觉token -> 低级像素token -> 最终图像。
*流程二:视觉问答 (Visual Question Answering)*
假设我们有一张金毛犬在草地上的图片,我们要问模型:“图片中的动物是什么?”
步骤 1:图像编码
- 输入: 一张金毛犬在草地上的图片,以及文本问题“图片中的动物是什么?”。
- 图像处理: 首先,图片被送入 Text-Aligned Tokenizer (TA-Tok)。
- 编码与量化:
TA-Tok
的视觉编码器(SigLIP2)将图片转换成连续的视觉特征,然后通过查询其内部的文本对齐码本,将这些连续特征量化成一个离散的语义视觉词元序列,例如[$\\lt$I21$\\gt$, $\\lt$I65$\\gt$, $\\lt$I800$\\gt$, ...]
。这个序列就是图像的“方言版”描述。
步骤 2:构建统一输入序列
- 输入融合: 模型会将上一步生成的视觉词元序列和文本问题token拼接在一起,形成一个混合的输入序列。这个序列可能看起来像这样:
[$\\lt$I21$\\gt$, $\\lt$I65$\\gt$, ...], ['图片', '中', '的', '动物', '是', '什么', '?']
。 - 关键点: 因为视觉词元和文本词元都来自LLM扩展后的同一个词汇表,并且在语义上是对齐的,所以LLM可以像处理一段纯文本一样,无缝地处理这个混合序列。不需要任何额外的适配器或对齐模块。
步骤 3:LLM进行理解与回答
- 输入: 上一步构建的混合序列。
- 处理: 这个序列被完整地输入到
Tar
模型的LLM中。LLM会像阅读一篇图文并茂的文章一样,同时“阅读”视觉信息和文本信息。 - 自回归生成答案: 在序列的最后,模型会开始自回归地生成下一个token。由于问题是“…是什么?”,LLM会根据它对图像(通过视觉词元理解到“狗”、“草地”等概念)和问题的理解,生成文本答案。
- 输出: LLM会逐词生成答案,最终形成一个文本token序列,解码后就是自然语言回答:“图片中的动物是一只金毛犬。”
这个流程展示了Tar
模型在理解任务上的优雅之处:通过TA-Tok
将视觉信息预先“翻译”成LLM的“方言”,后续的理解和推理过程就完全统一在LLM强大的自回归框架之下了。
*第四阶段:实验设计与验证分析*
*主实验设计解读:核心论点的验证*
-
核心主张:通过一个共享的、离散的、文本对齐的视觉表示,可以有效且高效地统一视觉理解与生成任务,其性能不亚于甚至优于使用分离或连续表示的专门模型。
-
实验设计:为了验证这一主张,作者将
Tar
模型同时放在了“理解”和“生成”两个赛道上,并与两类最相关的对手进行比较。 -
- 理解能力测试 (Table 1):将
Tar
与只做理解的SOTA模型(如 LLaVA, DeepSeek-VL)和其他统一模型(如 Janus, Chameleon)在多个视觉理解基准上进行对比。 - 生成能力测试 (Table 2):将
Tar
与只做生成的SOTA模型(如 SDXL, DALLE3)和其他统一模型进行对比。
- 理解能力测试 (Table 1):将
-
数据集、指标与基线的合理性分析:
-
- 数据集:理解任务使用了 POPE, MME, MMB, SEED-Bench, GQA, MMMU 等,这些都是领域内公认的、权威的基准测试集。生成任务使用了 GenEval 和 DPG-Bench,这两个也是当前评估文生图模型的主流基准。
- 评价指标:所选指标均是对应数据集的标准指标,能公正地衡量模型在特定任务上的表现。
- 基线方法 (Baselines):作者的选择非常有代表性,不仅包含了当前最先进的专用模型(如 DALLE3),还包含了各种不同技术路线的统一模型,例如
Janus
(分离表示)、Chameleon
(像素级共享表示)和ILLUME
(部分共享表示)。这种全面的比较使得结论更具说服力。
-
主实验结论:
-
- 在理解任务上 (Table 1),
Tar
模型(尤其是7B版本)的性能与最强的专用理解模型 LLaVA-Next 和统一模型 Janus-Pro 处于同一水平。这证明了离散化和共享表示并没有损害其理解能力。 - 在生成任务上 (Table 2),
Tar
模型的表现大幅超越了其他所有统一模型,并且逼近甚至超过了一些强大的专用生成模型。这强有力地证明了文本对齐的语义表示在指导生成方面具有巨大优势。 - 综合来看,
Tar
在两个赛道上都取得了顶尖的成绩,完美支撑了其核心论点:它成功地、高性能地统一了理解与生成。
- 在理解任务上 (Table 1),
*消融实验分析:内部组件的贡献*
-
文本对齐码本的初始化 (Table 3):
-
- 消融部分:
TA-Tok
的核心创新——用LLM词汇表初始化码本。 - 结果:使用
TA-Tok
初始化的模型在理解和生成任务上都显著优于传统的“随机初始化”码本。这定量地证明了“文本对齐”这一设计是模型高性能的关键。
- 消融部分:
-
尺度自适应池化 (Table 5):
-
- 消融部分:不同的视觉token数量(729, 169, 81),对应不同的视觉细节粒度。
- 结果:理解任务需要更多token(729),而生成任务在token数量适中时表现更优。这证明了为不同任务提供不同粒度视觉信息的设计是有效且必要的。
-
共享表示与联合训练 (Table 6):
-
- 消融部分:共享表示这一核心思想。
- 结果:对于
Janus
(分离表示),联合训练几乎没有带来好处。而对于VQVAE
和Ours
(共享表示),联合训练极大地提升了生成性能。这个实验巧妙地证明了:只有在表示共享的前提下,理解和生成才能真正地相互促进。
-
新的预训练任务 (Page 9, 右侧表格):
-
- 消融部分:
I2I
(图像到图像) 和TI2I
(文图到图像) 任务。 - 结果:在基线(baseline)上逐步加入这两个新任务后,生成性能持续提升。这证明了这些精心设计的任务能有效增强模型的跨模态融合能力。
- 消融部分:
*深度/创新性实验剖析:洞察方法的内在特性*
-
最具洞察力的实验:不同视觉表示的动态对比 (Figure 5)
-
- 实验目的:探究不同视觉表示方法(VQVAE, Janus, Hybrid, Ours)的学习效率和扩展性。
- 巧妙设计:作者在完全受控的环境下,从零开始训练这四种不同范式的模型,并绘制出它们在不同数据规模下的性能曲线。
- 价值:这个实验直观地展示了
TA-Tok
是四种范式中平衡性最好、综合实力最强的,为作者的技术选型提供了强有力的辩护。
-
案例研究:可视化分析 (Figure 6)
-
- 实验目的:直观展示不同表示和不同解码器在生成质量上的差异。
- 结论:
TA-Tok
(Ours) 生成的图像在语义上更准确、构图更合理。这些定性的结果为冰冷的数字提供了生动的注脚。
-
探究性实验:
Self Reflect
策略验证 (Table 10) -
- 实验目的:验证一个新颖的假设——能否利用模型自身的“理解能力”来提升其“生成能力”。
- 设计:作者构建了一个让模型判断“图文是否对齐”的数据集(Self-Reflect-340K),并在此数据集上对模型进行微调。
- 结论:经过
Self Reflect
微调后,模型的生成能力获得了持续且稳定的提升,这开辟了一个利用模型内在能力进行自我迭代优化的新方向。
-
压力测试:图像自编码性能 (Table 11)
-
- 实验目的:回应一个潜在的质疑——
TA-Tok
经过“编码-解码”这个有损压缩过程后,能否忠实地重建原始图像? - 结论:
Tar
的自编码性能与强大的生成基线Llamagen-XL
相当,打消了外界对其保真度的疑虑,证明了其流水线在有效传递视觉信息方面的鲁棒性。
- 实验目的:回应一个潜在的质疑——
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。