本文来源公众号“AI新智力”,仅用于学术分享,侵权删,干货满满。
原文链接:AI|大模型入门(六):主流厂商和产品
“大模型产品层出不穷,如何快速梳理各个产品,个人使用该如何选择?”
现在各个公司推出的大模型产品花样繁多,但是他们都有基本的技术框架、产品形态,因为他们几乎都是模仿以ChatGPT为代表的GPT系列产品的。
正是有了ChatGPT,才让人们认识到大语言模型的强大能力(什么是大语言模型见AI新智力 | AI|大模型入门(一)-CSDN博客),原来基于一个叫做Transformer(Paper: Attention Is All You Need)神经网络架构、并有着大规模模型参数和大规模预训练数据的模型,可以拥有如此强大的内容生成能力(即涌现现象,至于为什么会出现涌现现象,大模型内部到底发生了什么,科学家们至今未给出明确的答案)。
基于Transformer神经网络架构的产品大致可以分为三类:decoder-only LLMs、encoder-only LLMs、encoder-docoder LLMs。下面我们就简要总结各个技术路线的主流产品。
1 技术路线
图源论文:Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond
上图是一个现代大模型演进树,标识为非灰色的是基于Transformer的模型,可以分为三类:
用蓝色标注的分支是自回归模型(decoder-only LLMs):仅采用解码器模块来生成目标输出文本。很多decoder-only的大模型(如GPT, Generative Pre-trained Transformer)通常可以根据少量示例或简单指令执行下游任务,而无需添加预测头或微调。模型的训练范式是预测句子中的下一个单词。
代表作品:OpenAI公司的GPT系列,对应论文《Generative Pre-trained Transformer: A Comprehensive Review on Enabling Technologies, Potential Applications, Emerging Challenges, and Future Directions》。
用粉色标注的分支是自编码器模型 (encoder-only LLMs):仅用编码器对句子进行编码并理解单词之间的关系(如BERT, Bidirectional Encoder Representations from Transformers),训练模式预测句子中的掩码词语,需要添加额外的预测头来解决下游任务,胜在自然语言理解任务(如文本分类、匹配)。
代表作品:Google公司的BERT系列,对应论文《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》。
用绿色标注的分支是序列到序列模型(encoder-decoder LLMs):同时使用编码器和解码器模块,编码器模块负责将输入句子进行编码,解码器用于生成目标输出文本。编码器-解码器大模型(如GLM,General Language Model)能够直接解决基于某些上下文生成句子的任务,例如总结、翻译和问答。
代表作品:清华大学的GLM系列,对应论文《GLM- General language model pretraining with autoregressive blank infilling》。
2 国外大模型产品
一、OpenAI公司:技术路线吹哨人,背靠微软打造应用生态
主要产品为GPT系列:
-
ChatGPT:基于GPT-3.5开发的对话大模型应用,2022年11月30日OpenAI发布ChatGPT,随即引爆社交网络。
-
新发布的GPT-4o,o代表omni(所有的,表示支持多模态)
-
Sora:通过文本生成视频的大模型应用。
二、Google公司:大模型基础Transformer的研发者
-
发明Transformer神经网络架构
-
深度学习框架TensorFlow
-
BERT系列大模型
-
NLP(自然语言处理,Nature Language Processing)对话模型LaMDA系列
-
CV(计算机视觉,Computer Vision)模型ViT
-
多模态模型PaLM-E
-
Bard系列大模型
三、Mata(元宇宙):Facebook背景,基于大模型完善元宇宙生态
-
深度学习框架Pytorch
-
NLP(自然语言处理,Nature Language Processing)对话模型LLaMA系列(LLaMA2,LLaMA3)
-
CV(计算机视觉,Computer Vision)模型SEER
-
多模态模型data2vec
3 国内大模型产品
一、腾讯
主要基于混元大模型系列产品:
-
NLP对话应用:腾讯元宝
-
智能体应用:腾讯元气
二、百度
主要基于文心大模型系列
-
NLP对话应用:文心一言
三、阿里巴巴
主要基于通义大模型系列:
-
NLP对话应用:通义千问
四、字节跳动
基于豆包大模型
-
NLP对话应用:豆包
-
智能体应用:扣子
五、清华
主要基于智谱大模型系列:
-
对话应用:智谱清言
六、华为
主要基于盘古大模型系列。与其他公司使用英伟达(NVIDIA)GPU产品(CUDA深度绑定)不同,华为使用自己研发的GPU芯片进行研发,具有完整的自主可控技术栈。
七、月之暗面
主要基于moonshot大模型系列:
-
月之暗面kimi
4 Takeaways
关于NLP对话模型产品,国内性能不错的NLP对话模型产品有腾讯元宝、月之暗面kimi、清华智谱清言、阿里的通义千问等。但是作为普通用户,如果想要减少学习成本,尽早形成自己的使用习惯和知识积累,强烈建议选择科技巨头推出的成熟产品,比如腾讯公司的腾讯元宝,理由如下:
第一,现在国内科技巨头纷纷加入大模型市场竞争,他们在资金、人才、技术、数据、市场等方面有着巨大优势,这让大模型创业公司的机会越来越少。比如腾讯公司在5月30日发布了自家大模型应用“腾讯元宝”,腾讯资金雄厚,人才储备丰富、技术积累深厚、拥有海量用户数据(微信、公众号等腾讯全家桶)、拥有国内用户粘性最高的应用微信,因此留给“小微企业”的机会已经不多了,迟早要接受被洗牌的结局。
第二,国内市场竞争归根到底还是资本的竞争,资本巨头在这近三十年的互联网竞争发展中早已布局完成。
第三,虽然现在还处在跑马圈地的阶段,但是大模型在AIGC方面本质上还是互联网产品,谁拥有流量,谁拥有用户,谁就是最终赢家。
关于国产智能体应用产品,请参考前文介绍:https://blog.csdn.net/csdn_xmj/article/details/146917590。
5 参考文献
1. 智谱清言 网址:https://chatglm.cn/main/alltoolsdetail
2. 通义千问 网址:https://tongyi.aliyun.com/qianwen/
3. Kimi Chat 网址:https://kimi.moonshot.cn/
4. 腾讯混元 网址:https://hunyuan.tencent.com/
5. 海螺AI 网址:https://hailuoai.com/
6. 字节豆包:https://www.doubao.com/
THE END !
文章结束,感谢阅读。您的点赞,收藏,评论是我继续更新的动力。大家有推荐的公众号可以评论区留言,共同学习,一起进步。