1. 概述
大型语言模型和transformer架构[1]已经彻底改变了机器学习领域,并将在许多工业、科学和艺术领域产生类似的影响。尽管影响广泛,但LLM(大型语言模型)如何获得使其如此有用的新兴属性的机制在很大程度上仍然是一个理论谜团[2]。在这项工作中,我们关注LLM在上下文中学习的能力[3][4],在训练完全完成后,从训练期间未见过的例子中学习,但通过提示提供给训练过的系统。历史上,在机器
大型语言模型和transformer架构[1]已经彻底改变了机器学习领域,并将在许多工业、科学和艺术领域产生类似的影响。尽管影响广泛,但LLM(大型语言模型)如何获得使其如此有用的新兴属性的机制在很大程度上仍然是一个理论谜团[2]。在这项工作中,我们关注LLM在上下文中学习的能力[3][4],在训练完全完成后,从训练期间未见过的例子中学习,但通过提示提供给训练过的系统。历史上,在机器