初学NLP,尝试word2vec模型
第一次学这种,查阅了很多的博客,克服了些些问题,记录一下第一次探索的历程和相关代码,文中借鉴多篇优秀的文章,连接会在文章中给出。
1.实验样本
在我最开始寻找实验头绪的时候,了解做这个需要实验样本,但是大部分博主没有提供他的实验样本,所以我在网络上下载了《倚天屠龙记》的文本。
在下面这篇博客中我了解到可以运用文本进行分割自己生成词的实验样本,以及如何运用jieba的包。
借鉴的博客1
运用jieba包切割词的相关代码:
import jieba.analyse
import codecs
f=codecs.open('D:/NLP/A.txt','r',encoding="utf8")
target = codecs.open("D:/NLP/B.txt", 'w',encoding="utf8")
print('open files')
line_num=1
line = f.readline()
#循环遍历每一行,并对这一行进行分词操作
#如果