AI新智力 | AI|大模型入门(六):主流厂商和产品

本文来源公众号“AI新智力”,仅用于学术分享,侵权删,干货满满。

原文链接:AI|大模型入门(六):主流厂商和产品

大模型产品层出不穷,如何快速梳理各个产品,个人使用该如何选择?

现在各个公司推出的大模型产品花样繁多,但是他们都有基本的技术框架、产品形态,因为他们几乎都是模仿以ChatGPT为代表的GPT系列产品的。

正是有了ChatGPT,才让人们认识到大语言模型的强大能力(什么是大语言模型见AI新智力 | AI|大模型入门(一)-CSDN博客),原来基于一个叫做Transformer(Paper: Attention Is All You Need)神经网络架构、并有着大规模模型参数和大规模预训练数据的模型,可以拥有如此强大的内容生成能力(即涌现现象,至于为什么会出现涌现现象,大模型内部到底发生了什么,科学家们至今未给出明确的答案)。

基于Transformer神经网络架构的产品大致可以分为三类:decoder-only LLMs、encoder-only LLMs、encoder-docoder LLMs。下面我们就简要总结各个技术路线的主流产品。

1 技术路线

图片

图源论文:Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond

上图是一个现代大模型演进树,标识为非灰色的是基于Transformer的模型,可以分为三类:

蓝色标注的分支是自回归模型(decoder-only LLMs):仅采用解码器模块来生成目标输出文本。很多decoder-only的大模型(如GPT, Generative Pre-trained Transformer通常可以根据少量示例或简单指令执行下游任务,而无需添加预测头或微调。模型的训练范式是预测句子中的下一个单词。

代表作品:OpenAI公司的GPT系列,对应论文《Generative Pre-trained Transformer: A Comprehensive Review on Enabling Technologies, Potential Applications, Emerging Challenges, and Future Directions》。

粉色标注的分支是自编码器模型 (encoder-only LLMs仅用编码器对句子进行编码并理解单词之间的关系(如BERT, Bidirectional Encoder Representations from Transformers,训练模式预测句子中的掩码词语,需要添加额外的预测头来解决下游任务,胜在自然语言理解任务(如文本分类、匹配)。

代表作品:Google公司的BERT系列,对应论文《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》。

绿色标注的分支是序列到序列模型(encoder-decoder LLMs同时使用编码器和解码器模块,编码器模块负责将输入句子进行编码,解码器用于生成目标输出文本。编码器-解码器大模型(如GLM,General Language Model)能够直接解决基于某些上下文生成句子的任务,例如总结、翻译和问答。

代表作品:清华大学的GLM系列,对应论文《GLM- General language model pretraining with autoregressive blank infilling》。

图片

2 国外大模型产品

一、OpenAI公司:技术路线吹哨人,背靠微软打造应用生态

主要产品为GPT系列:

  • ChatGPT:基于GPT-3.5开发的对话大模型应用,2022年11月30日OpenAI发布ChatGPT,随即引爆社交网络。

  • 新发布的GPT-4o,o代表omni(所有的,表示支持多模态)

  • Sora:通过文本生成视频的大模型应用。

图片

二、Google公司:大模型基础Transformer的研发者

  • 发明Transformer神经网络架构

  • 深度学习框架TensorFlow

  • BERT系列大模型

  • NLP(自然语言处理,Nature Language Processing)对话模型LaMDA系列

  • CV(计算机视觉,Computer Vision)模型ViT

  • 多模态模型PaLM-E

  • Bard系列大模型

图片

三、Mata(元宇宙):Facebook背景,基于大模型完善元宇宙生态

  • 深度学习框架Pytorch

  • NLP(自然语言处理,Nature Language Processing)对话模型LLaMA系列(LLaMA2,LLaMA3)

  • CV(计算机视觉,Computer Vision)模型SEER

  • 多模态模型data2vec

图片

3 国内大模型产品

一、腾讯

主要基于混元大模型系列产品:

  • NLP对话应用:腾讯元宝

  • 智能体应用:腾讯元气

图片

二、百度

主要基于文心大模型系列

  • NLP对话应用:文心一言

图片

三、阿里巴巴

主要基于通义大模型系列:

  • NLP对话应用:通义千问

图片

四、字节跳动

基于豆包大模型

  • NLP对话应用:豆包

  • 智能体应用:扣子

五、清

主要基于智谱大模型系列:

  • 对话应用:智谱清言

图片

六、华为

主要基于盘古大模型系列。与其他公司使用英伟达(NVIDIA)GPU产品(CUDA深度绑定)不同,华为使用自己研发的GPU芯片进行研发,具有完整的自主可控技术栈。

图片

七、月之暗面

主要基于moonshot大模型系列:

  • 月之暗面kimi

4 Takeaways

关于NLP对话模型产品,国内性能不错的NLP对话模型产品有腾讯元宝、月之暗面kimi、清华智谱清言、阿里的通义千问等。但是作为普通用户,如果想要减少学习成本,尽早形成自己的使用习惯和知识积累,强烈建议选择科技巨头推出的成熟产品,比如腾讯公司的腾讯元宝,理由如下:

第一,现在国内科技巨头纷纷加入大模型市场竞争,他们在资金、人才、技术、数据、市场等方面有着巨大优势,这让大模型创业公司的机会越来越少。比如腾讯公司在5月30日发布了自家大模型应用“腾讯元宝”,腾讯资金雄厚,人才储备丰富、技术积累深厚、拥有海量用户数据(微信、公众号等腾讯全家桶)、拥有国内用户粘性最高的应用微信,因此留给“小微企业”的机会已经不多了,迟早要接受被洗牌的结局

第二,国内市场竞争归根到底还是资本的竞争,资本巨头在这近三十年的互联网竞争发展中早已布局完成。

第三,虽然现在还处在跑马圈地的阶段,但是大模型在AIGC方面本质上还是互联网产品,谁拥有流量,谁拥有用户,谁就是最终赢家。

关于国产智能体应用产品,请参考前文介绍:https://blog.csdn.net/csdn_xmj/article/details/146917590

5 参考文献

1. 智谱清言 网址:https://chatglm.cn/main/alltoolsdetail

2. 通义千问 网址:https://tongyi.aliyun.com/qianwen/

3. Kimi Chat 网址:https://kimi.moonshot.cn/

4. 腾讯混元 网址:https://hunyuan.tencent.com/

5. 海螺AI 网址:https://hailuoai.com/

6. 字节豆包:https://www.doubao.com/

THE END !

文章结束,感谢阅读。您的点赞,收藏,评论是我继续更新的动力。大家有推荐的公众号可以评论区留言,共同学习,一起进步。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值