17、中文分词、词性标注与情感分析技术详解

中文分词、词性标注与情感分析技术详解

1. 中文分词算法

在中文语言处理中,中文分词是一项基础且关键的技术,广泛应用于语义理解、机器翻译、信息检索等多个领域。下面将介绍几种中文分词相关的算法和策略。

1.1 NLPIR - ICTCLAS 分词算法

NLPIR - ICTCLAS 是一种基于分层的中文分词算法,其各部分主要功能如下:
- N - 最短路径粗分割 :该方法能够快速生成 N 个最优的粗分割结果,且粗分割结果集能尽可能覆盖更多的歧义情况。在整个词法分析框架中,二元分割词图是一个关键的中间数据结构,它将未登录词识别、消歧和分割有机地整合在一起。
- 原子分割 :这是词法分析的预处理过程,其任务是将原始字符串分割成词原子序列。词原子是分词的最小处理单元,包括单个汉字、标点符号以及由单字节字符和数字组成的非中文字符串。例如,“2002.9, NLPIR - ICTCLAS 的开源代码开始发布”对应的词原子序列为“2002.9/,/NLPIR/-/ICTCLAS/的/自/由/源/码/开/始/发/布/”。在这一层的隐马尔可夫模型(HMM)中,终止符是书面语言中的所有字符,状态集是词原子,模型的训练和求解相对简单,这里不再赘述。

1.2 基于类的隐马尔可夫分割算法

基于类的隐马尔可夫模型(HHMM)分词算法处于第二级,即在识别所有未登录词之后进行。首先,所有单词可分为九类,核心词典中的每个单词对应其自身的类别。假设核心词典 Dict 中包含的单词数量为 |Dict|,则定义的单词类别总数可通过相关公式计算。在分词过程中,为方便计算,常使用负

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值