20、新词语发现方法与应用解析

新词语发现方法与应用解析

在自然语言处理领域,新词语的发现是一项重要且具有挑战性的任务。随着互联网和社交媒体的发展,新词语不断涌现,准确识别这些新词语对于文本分析、信息检索等任务至关重要。本文将介绍基于统计模型和深度学习的新词语发现方法,以及在社交媒体开放领域的应用。

基于统计模型的研究方法

基于统计模型的新词语发现方法主要利用统计学中的相关概率知识来判断新词语,涉及到内聚性、信息熵和新词逆文档频率(IDF)三个指标。
- 内聚性(Cohesion) :在从文本中提取词语时,需要考虑什么样的文本片段可以被视为一个词语。高频出现的文本片段不一定是一个词语,可能是由多个词语组成的短语。因此,引入了点互信息(PMI)的概念来衡量词语的搭配和关联程度。设 $(x, y)$ 是一对词语,词语 $x$ 和 $y$ 单独出现的概率分别为 $P(x)$ 和 $P(y)$,它们一起出现的概率为 $P(x, y)$。当 $P(x, y) > P(x)P(y)$,即 $pmi(x, y) > 0$ 时,表示这两个词语一起出现的概率远大于它们单独出现的概率,此时这对词语将被视为一个单独的词语。例如,“蜻蜓”“徘徊”“骆驼”“胡萝卜”等词语在文本片段中具有很高的内聚性。
- 信息熵(Information Entropy) :信息熵可以理解为消除不确定性所需的信息量,即一个未知事件可能包含的信息量。香农提出的信息熵计算公式如下:
[H(X) = -\sum_{i=1}^{n} P(x_i) \log_2 P(x_i)]
其中 $P(x)$ 是某一事件发生的概率。使用拉格朗日乘数法可以证明,各种随机事

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值