
word2vec
accumulate_zhang
我好像什么都不会,真的!!!
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
用Word2vec训练中文wiki,构造词向量并做词聚类
l利用word2vec训练中文wiki,构造词向量,并搞搞词聚类。原创 2016-09-25 14:57:01 · 17187 阅读 · 2 评论 -
当用python读取几十万行文本时
我在使用python读取几十万行的文件中的数据,并构造字典,列表等数据结构时,再访问字典,列表时,一般都会出现内存不够的问题,然后只能循环读取几百行或者一定数量的行数来循环操作。keyword_list=[line.strip() for line in open("keywords.txt",'r')] #f1=open("part_wiki_vec.txt",'r') f1=open("wik原创 2016-09-29 21:56:44 · 4664 阅读 · 0 评论 -
清华THULAC分词软件python版使用
在使用结巴分词时候感觉在实验时候不太准确,所以试试其他的分词软件。大概去年五月份接触清华这个分词软件,不过当时没学过python,其他语言也用的不好,所以对如何编译和安装它显得十分笨重,所以今天再次去倒腾这些,发现编译安装挺简单,这说明我比以前有进步啊!哈哈,还是多学点东西,多自己倒腾,这样好好很多。 具体安装编译看http://thulac.thunlp.org/,上面有步骤,下载相原创 2017-03-21 22:46:30 · 16947 阅读 · 12 评论 -
使用gensim中的lda模型训练主题分布
一直在寻找各种大神的LDA算法,不过调试一直没有成功,最后还是选择使用gensim的LDA工具来训练自己的文本数据吧。 #coding=utf-8 import codecs from gensim import corpora from gensim.models import LdaModel from gensim.corpora import Dictionary fr=open('cl原创 2017-03-16 22:32:41 · 25599 阅读 · 28 评论 -
关于gensim的Word2vec的相关函数
转载地址:http://blog.csdn.net/lk7688535/article/details/52798735#comments 版权声明:本文为博主原创文章,转载时请注明出处URL,谢谢大家~ 目录(?)[-] 准备工作gensim介绍 以后用上其他模型的时候再介绍今天我们来体验 word2vec 训练词向量时传入的两个参数也对训练效果有很大转载 2017-06-02 09:17:01 · 4339 阅读 · 0 评论 -
用gensim导入word2vec词向量bin文件,出现字符编码
首先抛出我遇到的问题。 我训练了一个词向量文件,得到了一个二进制文件,model.bin,然后准备调用gensim来测试bin文件里面的词向量效果怎么样,于是就导入这个模型。 import gensim # 导入模型 model = gensim.models.KeyedVectors.load_word2vec_format('t8model.bin',binary=True)原创 2017-11-05 15:11:37 · 7119 阅读 · 10 评论 -
bert-as-service三行代码使用bert模型
bert火了,许多应用都可以直接使用bert模型生成embedding。今天记录下很好用的工具,bert-as-service。 我的环境是在macOS下的。 先一顿pip, pip install bert-serving-server # server pip install bert-serving-client # client, independent of `bert...原创 2019-04-10 16:07:06 · 20488 阅读 · 16 评论