NLP必不可少的中文数据资源

alicelmx

于 2018-01-17 12:30:10 发布

阅读量1.6w

点赞数 2

CC 4.0 BY-SA版权

分类专栏：机器学习和自然语言处理相关文章标签： NLP 数据资源搜狗实验室

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/alicelmx/article/details/79083903

本文介绍了NLP中常用的两个中文数据资源：搜狗实验室的数据集，包括如何获取及可能遇到的问题；另一个是THUCNews，一个包含74万篇新闻的分类数据集，涵盖14个类别，准确率可达88.6%。建议使用THUCNews，因其数据结构更便于处理。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

最近在做中文文本分类，你做数据，首先你就得有数据集嘛，没有数据集你就得自己爬，很麻烦，我自己已经走了很多弯路了，只想提供给大家一些实用的东西，目的就酱。

搜狗实验室数据资源

首先挂一个链接，因为其他博文的链接都是八百辈子之前的都挂掉了，想要下载的点击这个搜狗实验室,强烈建议不要使用Chrome，不知道为啥就是无法跳转到下载界面，我使用的Safari，然后登记下个人信息酒就可以使用了，毕竟你还是要尊重下人家的版权的嘛。
假设我们要使用搜狐新闻数据：

这里写图片描述

完整版非常大，是一个.dat格式的文件，还要自己进行切分，事实上搜狗实验室提供的资源不仅是ASCII码格式的，你需要自己转换，甚至文档都是xml结构的，你还需要自己提取，mmp，折腾我好久，当然我是个有毅力的人，最后当然是选择放弃了，哈哈哈哈哈～

这里写图片描述

虽然我失败了，但是给你们提供一个案例，祝你们能实现：

最低0.47元/天解锁文章

200万优质内容无限畅学

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。