上图为用大模型训练酒店查询问答系统后的演示
使用大模型微调技术,通过指令跟随数据进行专有领域知识微调训练大语言模型,使它适用于特定领域下游任务。
ChatGLM模型原理
ChatGLM模型引入了一种全新的自回归空格填充的任务, 例如上图: 对原始的数据 x 1 , x 2 , x 3 , x 4 , x 5 , x 6 x_1,x_2,x_3,x_4,x_5,x_6 x1,x2,x3,x4,x5,x6,随机 m a s k mask mask了 x 3 x_3 x3和 x 5 , x 6 x_5,x_6 x5,x6,目标就是利用未 m a s k mask mask的来自回归式预测被 m a s k mask mask的信息。
ChatGLM的GLMBlock
GLMBlock是基于Transformer模型的一种变体,只有解码器。主要包含以下几个部分:
1.Layer Norm;2.Self Attention;3.GLU
微调方式: