DeepSeek Coder 从 CommonCrawl 和 StackOverflow 收集的数据比例是多少?

DeepSeek Coder 的训练数据集主要由以下三部分组成:87%的源代码、10%的与英语相关的自然语言语料库和3%的与代码无关的中文自然语言语料库。然而,证据中并未明确提到 DeepSeek Coder 是否从 CommonCrawl 或 StackOverflow 收集数据,以及具体的比例。

尽管 CommonCrawl 是一个广泛使用的高质量数据源,但没有直接证据表明 DeepSeek Coder 使用了 CommonCrawl 数据集。此外,虽然 StackOverflow 是一个重要的编程问答社区,但也没有证据显示 DeepSeek Coder 使用了 StackOverflow 数据集。

因此,基于现有资料,无法确定 DeepSeek Coder 是否从 CommonCrawl 和 StackOverflow 收集数据,以及具体的比例。

DeepSeek Coder 数据集的详细组成如下:

  1. 数据集比例

    • 87%的代码数据,主要来源于GitHub的Markdown文件和StackExchange。
    • 13%的自然语言数据,包括英文和中文内容。
  2. 数据过滤和去重策略

    • 数据过滤结合了规则、编译器和质量打分模型,以去除语法错误、可读性差或模块化低的代码。
    • 使用n-gram过滤方法,如果一段代码包含与测试数据中任何10-gram字符串相同的内容,则会被从预训练数据中删除。
    • 基于仓库级别的拓扑排序方法,用于处理代码文件之间的依赖关系,确保数据的一致性和多样性。
  3. 数据质量控制

    • 数据经过严格的质量筛选,确保高质量代码数据的完整性。
    • 去重策略基于仓库级别的依赖关系分析,确保数据的多样性和一致性。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

百态老人

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值