DeepSeek Coder 从 CommonCrawl 和 StackOverflow 收集的数据比例是多少？

百态老人

于 2025-01-24 13:31:24 发布

阅读量779

点赞数 15

CC 4.0 BY-SA版权

文章标签：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_41429382/article/details/145340158

DeepSeek Coder 的训练数据集主要由以下三部分组成：87%的源代码、10%的与英语相关的自然语言语料库和3%的与代码无关的中文自然语言语料库。然而，证据中并未明确提到 DeepSeek Coder 是否从 CommonCrawl 或 StackOverflow 收集数据，以及具体的比例。

尽管 CommonCrawl 是一个广泛使用的高质量数据源，但没有直接证据表明 DeepSeek Coder 使用了 CommonCrawl 数据集。此外，虽然 StackOverflow 是一个重要的编程问答社区，但也没有证据显示 DeepSeek Coder 使用了 StackOverflow 数据集。

因此，基于现有资料，无法确定 DeepSeek Coder 是否从 CommonCrawl 和 StackOverflow 收集数据，以及具体的比例。

DeepSeek Coder 数据集的详细组成如下：

数据集比例：
- 87%的代码数据，主要来源于GitHub的Markdown文件和StackExchange。
- 13%的自然语言数据，包括英文和中文内容。
数据过滤和去重策略：
- 数据过滤结合了规则、编译器和质量打分模型，以去除语法错误、可读性差或模块化低的代码。
- 使用n-gram过滤方法，如果一段代码包含与测试数据中任何10-gram字符串相同的内容，则会被从预训练数据中删除。
- 基于仓库级别的拓扑排序方法，用于处理代码文件之间的依赖关系，确保数据的一致性和多样性。
数据质量控制：
- 数据经过严格的质量筛选，确保高质量代码数据的完整性。
- 去重策略基于仓库级别的依赖关系分析，确保数据的多样性和一致性。

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

百态老人 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。