复旦邱锡鹏教授：语言模型即服务的五类应用手段，你了解多少

小红书技术REDtech

已于 2023-04-11 15:30:36 修改

阅读量450

点赞数

CC 4.0 BY-SA版权

文章标签：语言模型深度学习自然语言处理

于 2023-04-11 12:53:02 首次发布

本文链接：https://blog.csdn.net/REDtech_1024/article/details/130081034

近年来，深度学习已经成为了 NLP 领域的标配技术，2022年10 月15 日“小红书 REDtech 青年技术沙龙”活动中，我们非常荣幸地邀请到了上海复旦大学计算机学院邱锡鹏教授，邱教授分享了《语言模型即服务与黑箱优化》报告，详细讲解了语言模型越来越大的背景下对于新应用模式的探索。

邱锡鹏：国家优青获得者，于复旦大学获得理学学士和博士学位。主要从事自然语言处理、深度学习等方向的研究，发表 CCF A/B 类论文 70 余篇，获得 ACL 2017 杰出论文奖（CCF A 类）、CCL 2019 最佳论文奖、《中国科学：技术科学》2021 年度高影响力论文奖，有 5 篇论文入选 PaperDigest 发布的 IJCAI/ACL/EMNLP 的最有影响力论文（被引用数进入前当届会议的 20 名）。出版开源专著《神经网络与深度学习》，Github 关注数 1.5 万，豆瓣评分 9.4 分。主持开发了开源框架 FudanNLP 和 FastNLP，已被国内外数百家单位使用。2015 年入选首届中国科协青年人才托举工程项目，2018 年获钱伟长中文信息处理科学技术奖青年创新奖一等奖，2020 获第四届上海高校青年教师教学竞赛优等奖，2021 年获首届上海市计算机学会教学成果奖一等奖（第一完成人）等。培养学生多次获得一级学会优博、微软学者、百度奖学金等。

以下内容根据邱教授现场报告整理

背景

在预训练时代，我们大部分的研究工作分两个大类别：上游如何做模型的预训练，下游如何做精调，也就是把预训练模型迁移到下游任务。在上游有很多的公司主导如 Open AI、Google 等，他们把大模型做得非常大，显示出很多很优秀的能力如 Few-shot 小样本的能力。在参数的数量级上升之后，小样本的学习能力就变得非常强，这就是大家还是在不停地让这个模型变得越来越大的原因。

但是随着模型越来越大，这种预训练加精调的模式变得不可行了，一方面上游制造大模型的公司不愿意把它开源，另一方面下游的应用厂商也不太可能把它下载下来，即使下载也很难有资源运行。

所以我们要追求一种新的应用模式。比如以 GPT 为代表提出来的 in-context learning（在上下文中学习），给预训练模型输入一些提示或者例子，让原模型根据这些例子在下游任务上进行适配，它的效果也非常好，以 GPT-3 为例的一些模型表现得非常惊艳。in-context learning 成为我们在这个领域上研究的重点。

Language-Model-as-a-Service

语言模型即服务

如果模型是部署在服务端的，相当于把语言模型做成一个服务，我们就提出了“语言模型即服务”的概念。语言模型即服务事实上已经是一个很成熟的应用了，有很多的应用也都是基于语言模型即服务的能力。像 GPT-3 开发的一些下游的服务——我们可以用 GPT-3 生成一个网页按钮，用它把自然语言转化成数学公式等等。

在语言模型即服务中我们会存在两个挑战：