预训练任务
在进行模型的大规模预训练时,往往需要设计合适的自监督预训练任务,使
得模型能够从海量无标注数据中学习到广泛的语义知识与世界知识。目前,常用的预训练任务主要分为三类,包括语言建(LanguageModeling,LM)、去噪自编码(Denoising Autoencoding, DAE)以及混合去噪器(Mixture-of-Denoisers, MoD)。
1、语言建模
语言建模任务是目前绝大部分LLM模型采用的预训练任务。该任务的核心在于预测下一个词元,被用于训练基于解码器的大语言模型。语言建模任务与人类生成语言数据(口语表达,书面写作等)方式相似,都是基于前序内容生成后续的内容。
2、去噪编码
去噪自编码任务是另一种常见的语言模型预训练任务,广泛应用于BERT、T5等预训练语言模型中。在去噪自编码任务中,输入文本经过一系列随机替换或删除操作,形成损坏的文本。模型的目标是根据这些损坏的文本恢复出被替换或删除的词元片段。
与语言建模相比,去噪自编码任务的实现更为复杂,需要设定额外的优化策
略,如词元替换策略、替换片段长度、替换词元比例等。这些策略的选择会直接影响模型的训练效果。尽管去噪自编码任务在许多预训练语言模型中得到了广泛应用。然而,相比于语言建模任务,目前完全使用去噪自编码进行预训练的大语言模型还较为有限。
3、混合去噪器
混合去噪器,又称UL2损失,通过将语言建模和去噪自编码的目标均视为不同类型的去噪任务,对于预训练任务进行了统一建模。具体来说,混合去噪器定义了三种去噪器:S-去噪器、R-去噪器和X-去噪器。
S-去噪器与前缀语言建模的目标相同),旨在训练模型学习基于给定前缀信息生成合理的后缀文本的能力。,R-去噪器和X-去噪器与去噪自编码任务的优化目标更为相似.。二者仅仅在被掩盖片段的跨度和损坏比例上有所区别。R-去噪器屏蔽序列中约15%的词元,且每个被屏蔽的片段仅包含3到5个词元。而X-去噪器则采用更长的片段(12个词元以上)或更高的损坏比例(约50%),进而要求模型能够精准还原原始信息。这种设置增加了任务难度,迫使模型学习到更全面的文本表示。