复旦邱锡鹏教授:语言模型即服务的五类应用手段,你了解多少

近年来,深度学习已经成为了 NLP 领域的标配技术,2022年10 月15 日“小红书 REDtech 青年技术沙龙”活动中,我们非常荣幸地邀请到了上海复旦大学计算机学院邱锡鹏教授,邱教授分享了《语言模型即服务与黑箱优化》报告,详细讲解了语言模型越来越大的背景下对于新应用模式的探索。

邱锡鹏:国家优青获得者,于复旦大学获得理学学士和博士学位。主要从事自然语言处理、深度学习等方向的研究,发表 CCF A/B 类论文 70 余篇,获得 ACL 2017 杰出论文奖(CCF A 类)、CCL 2019 最佳论文奖、《中国科学:技术科学》2021 年度高影响力论文奖,有 5 篇论文入选 PaperDigest 发布的 IJCAI/ACL/EMNLP 的最有影响力论文(被引用数进入前当届会议的 20 名)。出版开源专著《神经网络与深度学习》,Github 关注数 1.5 万,豆瓣评分 9.4 分。主持开发了开源框架 FudanNLP 和 FastNLP,已被国内外数百家单位使用。2015 年入选首届中国科协青年人才托举工程项目,2018 年获钱伟长中文信息处理科学技术奖青年创新奖一等奖,2020 获第四届上海高校青年教师教学竞赛优等奖,2021 年获首届上海市计算机学会教学成果奖一等奖(第一完成人)等。培养学生多次获得一级学会优博、微软学者、百度奖学金等。

以下内容根据邱教授现场报告整理

背景

在预训练时代,我们大部分的研究工作分两个大类别:上游如何做模型的预训练,下游如何做精调,也就是把预训练模型迁移到下游任务。在上游有很多的公司主导如 Open AI、Google 等,他们把大模型做得非常大,显示出很多很优秀的能力如 Few-shot 小样本的能力。在参数的数量级上升之后,小样本的学习能力就变得非常强,这就是大家还是在不停地让这个模型变得越来越大的原因。

但是随着模型越来越大,这种预训练加精调的模式变得不可行了,一方面上游制造大模型的公司不愿意把它开源,另一方面下游的应用厂商也不太可能把它下载下来,即使下载也很难有资源运行。

所以我们要追求一种新的应用模式。比如以 GPT 为代表提出来的 in-context learning(在上下文中学习),给预训练模型输入一些提示或者例子,让原模型根据这些例子在下游任务上进行适配,它的效果也非常好,以 GPT-3 为例的一些模型表现得非常惊艳。in-context learning 成为我们在这个领域上研究的重点。

Language-Model-as-a-Service

语言模型即服务

如果模型是部署在服务端的,相当于把语言模型做成一个服务,我们就提出了“语言模型即服务”的概念。语言模型即服务事实上已经是一个很成熟的应用了,有很多的应用也都是基于语言模型即服务的能力。像 GPT-3 开发的一些下游的服务——我们可以用 GPT-3 生成一个网页按钮,用它把自然语言转化成数学公式等等。

在语言模型即服务中我们会存在两个挑战:

  • 服务的原模型是什么?
  • 如何把它适配到下游任务当中?

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

小红书技术REDtech

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值