贪心学院—自然语言处理—分词原理

本文深入探讨了三种主要的分词算法:前向最大匹配、后向最大匹配与维特比算法,分别介绍了它们的工作原理、优缺点,并指出维特比算法在考虑语义信息方面的优势。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

前向最大匹配(forward-max matching)

根据自定义的max_length来对文本进行分词及判断。从前开始匹配。
在这里插入图片描述

后向最大匹配(backward-max matching)

从后开始匹配。
在这里插入图片描述

缺点:
未考虑语义信息
效率基于max_length

维特比算法(viterbi algorithm)

百度百科解释。考虑语义,将分词与求概率进行结合。
在这里插入图片描述


个人整理笔记,方便复习,若侵权,请联系。
附贪心学院课程链接: https://www.greedyai.com/courseinfor/105

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值