背景
做nlp任务时,对于文本的处理经常会涉及到分词这个问题。有时为了做实验也不得不构建自己的分词方法,例如subword,以及本文介绍的中文基于字,英文基于词的场景。因为汉语文本会涉及英文相关内容所以才这么说的,其实下文中是英文基于单词,除英文外基于字符。如果没有这个需求,还是使用jieba,spacy等分词工具吧。
算法实现
算法实现比较简单,下面的代码只是作为我日常使用的工具类而已。具体原理就不多介绍了,看看源码你就懂了。
import os
import string
class SegWord(object):
def __init__(self