gensim.models.Word2Vec参数 size 如何选择?&&相似度如何判定?

本文通过实验探讨了 gensim.models.Word2Vec 中的 size 参数对训练结果的影响。随着维度从20增加到200,训练时间增加,不相关词汇逐渐减少,相关性排名更为精确。然而,相关系数并不完全反映词的相似性,需结合词性及排名来评估。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

目录

前言

训练结果

结果测试

20纬度测试

50、100、200纬度测试

相关系数与纬度变化

结论

改进


前言

size参数决定词向量训练的纬度,size如何选择,这里做了个实验

#!/usr/bin/env python
# coding=utf-8
# Creative time 2020/3/20
# Creator HongYuan Guo

from gensim.models import word2vec
from gensim.models import Doc2Vec
import time

class WordVector:

    def __init__(self):
        self.corpus_path = 'Corpus\corpus_**.txt'

    def Train_model(self,path,Size):
        sentences = word2vec.Text8Corpus(path)  # 加载语料
        model = word2vec.Word2Vec(sentences, size=Size)  # 默认window=5
        model.save('static_models\WordVector_JD60W_'+str(Size)+'.model')
        return model

    def get_model(self,path,size):
        try:
            model = Doc2Vec.load('static_models\WordVector_JD60W_'+str(size)+'.model')
            print('模型已存在')
        except:
            print('正在训练模型')
            self.Train_model(path,size)
            print('训练结束')
        finally:
            model = Doc2
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

海人001

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值