简介
CRAG是Comprehensive RAG Benchmark,一个丰全面的事实问题解答基准,主要是为了推动RAG的发展而设计的。CRAG除去提供了一套Question&Answer配对的数据以外,还提供模拟网络和知识图谱搜索的API。CRAG的设计囊括了五个领域和八个问题类别的各种问题,反映了从流行到长尾的不同实体流行度(我也不知道他为什么这么描述,from popular to long-tail),以及从数年到数秒的时间动态。
数据集的详细描述,它由两类主要数据组成:
- 1、Question&Answer配对的数据:成对的问题及其相应的答案。
- 2、检索内容:用于支持答案生成的信息检索内容。
检索内容分为两类,以模拟RAG的实际应用场景:
- 网络搜索结果:对于每个问题,最多可存储50个完整的HTML页面,使用问题文本作为搜索查询进行检索。
- 模拟知识图片搜索和API:模拟API旨在模拟现实世界中的知识图谱搜索或API搜索。给定一些输入参数后,它们会输出相关结果,这些结果可能有助于回答用户的问题,也可能无助于回答用户的问题。
评价方法
RAG系统采用人工评分方法进行评估,该方法可衡量对评估集中问题的答复质量。回答被评为完美(Perfect)、可接受(Acceptable)、缺失(Missing)、错误(Incorre