第三章 3、1 文本预处理之分词(Word Segmentation)

本文详细介绍了文本预处理中的分词技术,包括最大匹配法(向前、向后最大匹配)及其优缺点,并探讨了考虑语义的分词方法,如使用LM模型和维特比算法来提高效率和准确性。最后总结了分词算法的应用现状。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一、大纲总览

1、tough资料:各类文本等的输入。
2、分词。好的分词算法很重要。
3、文本预处理。
4、标准化:单词的时态,单复数。都转换为最原始的。这时还是字符串。
5、特征提取:向量表示,thidf算法,w2w,seq2seq算法等等。
6、模型:向量有了,然后就是根据算法去匹配。
在这里插入图片描述

二、分词

可以直接用的分词工具。
在这里插入图片描述

1、分词算法之最大匹配
向前最大匹配、向后最大匹配、双向最大匹配(不讲)

  • 向前最大匹配
    1、首先输入一个句子,已知后建好的词典库,设置好窗口值(5)
    2、窗口从第一个汉字开始向后滑动以此减少
    3、在词典库中匹配到的话,就直接切分句子,然后窗口移动到下一个句子里面
    4、每一个窗口里面是向前匹配的

在这里插入图片描述

  • 向后最大匹配
    与向前匹配道理一样
    1、窗口从最后一个汉字开始,然后向后不断缩小范围。
    2、然后进行切割分词,再词典当中找到之后窗口滑动
    3、向前和向后粉刺的结果有时候会很一样

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值