这篇论文就是大名鼎鼎的GPT-3的论文,从标题上看基本上就能看出这篇文章的主旨:少样本学习(Few-Shot Learners)。
这一篇主要讲的是GPT-3模型如何牛逼,在各种任务中的表现,但是没有详细介绍模型结构,就说了是基于Transfomer结构。
摘要
摘要阐述了当前NLP模型中的一般方法,就是使用一个预训练模型拿过来,然后再使用某个语言处理领域的大量数据( thousands or tens of thousands of examples)去进行训练(task-specific fine-tuning),比如文章中提到的完形填空,问答等不同方式的语言处理任务。而这篇模型提出来的GPT-3模型,目标就是在NLP领域做到开箱即用,用很少的样例(Few-Shot),或者是不需要任何样例(Zero-Shot)来完成NLP中的所有领域任务。因为人对于各种NLP任务都是这个样子的。
Recent work has demonstrated substantial gains on many NLP tasks and benchmarks by pre-training on a large corpus of text followed by fine-tuning on a specific task. While typically task-agnostic in architecture, this method still requires task-specific fine-tuning datasets of thousands or tens of thousands of examples. By contrast, humans can generall