最近在做中文文本分类,你做数据,首先你就得有数据集嘛,没有数据集你就得自己爬,很麻烦,我自己已经走了很多弯路了,只想提供给大家一些实用的东西,目的就酱。
搜狗实验室数据资源
首先挂一个链接,因为其他博文的链接都是八百辈子之前的都挂掉了,想要下载的点击这个搜狗实验室,强烈建议不要使用Chrome,不知道为啥就是无法跳转到下载界面,我使用的Safari,然后登记下个人信息酒就可以使用了,毕竟你还是要尊重下人家的版权的嘛。
假设我们要使用搜狐新闻数据:
完整版非常大,是一个.dat格式的文件,还要自己进行切分,事实上搜狗实验室提供的资源不仅是ASCII码格式的,你需要自己转换,甚至文档都是xml结构的,你还需要自己提取,mmp,折腾我好久,当然我是个有毅力的人,最后当然是选择放弃了,哈哈哈哈哈~
虽然我失败了,但是给你们提供一个案例,祝你们能实现: