DeepSeek Coder 的训练数据集主要由以下三部分组成:87%的源代码、10%的与英语相关的自然语言语料库和3%的与代码无关的中文自然语言语料库。然而,证据中并未明确提到 DeepSeek Coder 是否从 CommonCrawl 或 StackOverflow 收集数据,以及具体的比例。
尽管 CommonCrawl 是一个广泛使用的高质量数据源,但没有直接证据表明 DeepSeek Coder 使用了 CommonCrawl 数据集。此外,虽然 StackOverflow 是一个重要的编程问答社区,但也没有证据显示 DeepSeek Coder 使用了 StackOverflow 数据集。
因此,基于现有资料,无法确定 DeepSeek Coder 是否从 CommonCrawl 和 StackOverflow 收集数据,以及具体的比例。
DeepSeek Coder 数据集的详细组成如下:
-
数据集比例:
- 87%的代码数据,主要来源于GitHub的Markdown文件和StackExchange。
- 13%的自然语言数据,包括英文和中文内容。
-
数据过滤和去重策略:
- 数据过滤结合了规则、编译器和质量打分模型,以去除语法错误、可读性差或模块化低的代码。
- 使用n-gram过滤方法,如果一段代码包含与测试数据中任何10-gram字符串相同的内容,则会被从预训练数据中删除。
- 基于仓库级别的拓扑排序方法,用于处理代码文件之间的依赖关系,确保数据的一致性和多样性。
-
数据质量控制:
- 数据经过严格的质量筛选,确保高质量代码数据的完整性。
- 去重策略基于仓库级别的依赖关系分析,确保数据的多样性和一致性。