kenlm 安装
从 github 上面 clone 到本地:
git clone https://github.com/kpu/kenlm
编译:使用 cmake 进行编译
mkdir -p build && cd build
cmake …
make -j 4
安装额外的库
pip install kenlm
pip install pypinyin
pip install https://github.com/kpu/kenlm/archive/master.zip
预处理中文训练语料
step-1: 去除英文和标点符号
step-2: 去除非中文和数字的
step-3: 分词并且将数字改成大写 将句子用空格拼接起来
import jieba
import re
def num_to_ch(num):
"""
功能说明:将阿拉伯数字 ===> 转换成中文数字(适用于[0, 10000)之间的阿拉伯数字 )
"""
if len(num) == 5: return '手机号'
num = int(num)
_MAPPING = (u'零', u'一', u'二', u'三', u'四', u'五', u'六', u'七', u'八', u'九', )
_P0 = (u'', u'十', u'百', u'千', )
_S4 = 10 ** 4
if num < 0 or num