NLP必不可少的中文数据资源

本文介绍了NLP中常用的两个中文数据资源:搜狗实验室的数据集,包括如何获取及可能遇到的问题;另一个是THUCNews,一个包含74万篇新闻的分类数据集,涵盖14个类别,准确率可达88.6%。建议使用THUCNews,因其数据结构更便于处理。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

最近在做中文文本分类,你做数据,首先你就得有数据集嘛,没有数据集你就得自己爬,很麻烦,我自己已经走了很多弯路了,只想提供给大家一些实用的东西,目的就酱。

搜狗实验室数据资源

首先挂一个链接,因为其他博文的链接都是八百辈子之前的都挂掉了,想要下载的点击这个搜狗实验室,强烈建议不要使用Chrome,不知道为啥就是无法跳转到下载界面,我使用的Safari,然后登记下个人信息酒就可以使用了,毕竟你还是要尊重下人家的版权的嘛。
假设我们要使用搜狐新闻数据:

这里写图片描述

完整版非常大,是一个.dat格式的文件,还要自己进行切分,事实上搜狗实验室提供的资源不仅是ASCII码格式的,你需要自己转换,甚至文档都是xml结构的,你还需要自己提取,mmp,折腾我好久,当然我是个有毅力的人,最后当然是选择放弃了,哈哈哈哈哈~

这里写图片描述

虽然我失败了,但是给你们提供一个案例,祝你们能实现:

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值