论文翻译：AAAI-2024.Li C.CCF-A.Task Contamination: Language Models May Not Be Few-Shot Anymore

CSPhD-winston-杨帆

已于 2024-10-19 17:53:31 修改

阅读量592

点赞数 7

CC 4.0 BY-SA版权

分类专栏：论文翻译 LLMs-数据污染文章标签：语言模型人工智能自然语言处理

于 2024-09-22 11:11:38 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/WhiffeYF/article/details/142433202

论文翻译同时被 2 个专栏收录

114 篇文章 ¥9.90 ¥99.00

订阅专栏

超级会员免费看

LLMs-数据污染

61 篇文章

订阅专栏

https://ojs.aaai.org/index.php/AAAI/article/view/29808

Task Contamination: Language Models May Not Be Few-Shot Anymore

论文主要研究了任务污染对LLMs在零样本和少样本任务中性能评估的影响。

任务污染：语言模型可能不再是少量样本学习者

文章目录

任务污染：语言模型可能不再是少量样本学习者
摘要
1 引言
2 概述
3 模型和数据集
4 时序分析
5 训练数据检查
6 任务数据提取
7 成员推断
8 要点
9 相关工作
10 结论与未来工作

摘要

大型语言模型（LLM）在各种零样本和少量样本任务中表现出令人印象深刻的性能。然而，它们在零样本或少量样本设置中的成功可能会受到任务污染的影响，这是一个尚未得到充分检验的潜在限制。本文调查了LLM在零样本和少量样本性能如何随着时间的推移而变化，以及随着时间的推移而发布的数据集和LLM的变化。利用GPT-3系列模型和其他几个最近开源的LLM，控制数据集难度，我们发现在LLM训练数据创建日期之前发布的数据集的表现比在LLM训练数据创建日期之后发布的数据集要好得多。这强烈表明，对于许多LLM来说，对于LLM训练数据创建日期之前的数据集存在任务污染。此外，我们利用训练数据检查、训练数据提取和成员推断攻击，揭示了任务污染的进一步证据。重要的是，我们发现对于没有任务污染可能性的任务，LLM很少在零样本和少量样本设置中显示出比简单多数基线统计上显著的改进。

Large language models (LLMs)

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

CSPhD-winston-杨帆 给我饭钱

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。