近年来,深度学习已经成为了 NLP 领域的标配技术,2022年10 月15 日“小红书 REDtech 青年技术沙龙”活动中,我们非常荣幸地邀请到了上海复旦大学计算机学院邱锡鹏教授,邱教授分享了《语言模型即服务与黑箱优化》报告,详细讲解了语言模型越来越大的背景下对于新应用模式的探索。
邱锡鹏:国家优青获得者,于复旦大学获得理学学士和博士学位。主要从事自然语言处理、深度学习等方向的研究,发表 CCF A/B 类论文 70 余篇,获得 ACL 2017 杰出论文奖(CCF A 类)、CCL 2019 最佳论文奖、《中国科学:技术科学》2021 年度高影响力论文奖,有 5 篇论文入选 PaperDigest 发布的 IJCAI/ACL/EMNLP 的最有影响力论文(被引用数进入前当届会议的 20 名)。出版开源专著《神经网络与深度学习》,Github 关注数 1.5 万,豆瓣评分 9.4 分。主持开发了开源框架 FudanNLP 和 FastNLP,已被国内外数百家单位使用。2015 年入选首届中国科协青年人才托举工程项目,2018 年获钱伟长中文信息处理科学技术奖青年创新奖一等奖,2020 获第四届上海高校青年教师教学竞赛优等奖,2021 年获首届上海市计算机学会教学成果奖一等奖(第一完成人)等。培养学生多次获得一级学会优博、微软学者、百度奖学金等。
以下内容根据邱教授现场报告整理
背景
在预训练时代,我们大部分的研究工作分两个大类别:上游如何做模型的预训练,下游如何做精调,也就是把预训练模型迁移到下游任务。在上游有很多的公司主导如 Open AI、Google 等,他们把大模型做得非常大,显示出很多很优秀的能力如 Few-shot 小样本的能力。在参数的数量级上升之后,小样本的学习能力就变得非常强,这就是大家还是在不停地让这个模型变得越来越大的原因。
但是随着模型越来越大,这种预训练加精调的模式变得不可行了,一方面上游制造大模型的公司不愿意把它开源,另一方面下游的应用厂商也不太可能把它下载下来,即使下载也很难有资源运行。
所以我们要追求一种新的应用模式。比如以 GPT 为代表提出来的 in-context learning(在上下文中学习),给预训练模型输入一些提示或者例子,让原模型根据这些例子在下游任务上进行适配,它的效果也非常好,以 GPT-3 为例的一些模型表现得非常惊艳。in-context learning 成为我们在这个领域上研究的重点。
Language-Model-as-a-Service
语言模型即服务
如果模型是部署在服务端的,相当于把语言模型做成一个服务,我们就提出了“语言模型即服务”的概念。语言模型即服务事实上已经是一个很成熟的应用了,有很多的应用也都是基于语言模型即服务的能力。像 GPT-3 开发的一些下游的服务——我们可以用 GPT-3 生成一个网页按钮,用它把自然语言转化成数学公式等等。
在语言模型即服务中我们会存在两个挑战:
- 服务的原模型是什么?
- 如何把它适配到下游任务当中?