一、大纲总览
1、tough资料:各类文本等的输入。
2、分词。好的分词算法很重要。
3、文本预处理。
4、标准化:单词的时态,单复数。都转换为最原始的。这时还是字符串。
5、特征提取:向量表示,thidf算法,w2w,seq2seq算法等等。
6、模型:向量有了,然后就是根据算法去匹配。
二、分词
可以直接用的分词工具。
1、分词算法之最大匹配
向前最大匹配、向后最大匹配、双向最大匹配(不讲)
- 向前最大匹配
1、首先输入一个句子,已知后建好的词典库,设置好窗口值(5)
2、窗口从第一个汉字开始向后滑动以此减少
3、在词典库中匹配到的话,就直接切分句子,然后窗口移动到下一个句子里面
4、每一个窗口里面是向前匹配的
- 向后最大匹配
与向前匹配道理一样
1、窗口从最后一个汉字开始,然后向后不断缩小范围。
2、然后进行切割分词,再词典当中找到之后窗口滑动
3、向前和向后粉刺的结果有时候会很一样