kenlm训练语言模型 及 NLP中中文字符预处理

kenlm 安装

从 github 上面 clone 到本地:

git clone https://github.com/kpu/kenlm
编译:使用 cmake 进行编译

mkdir -p build && cd build
cmake …
make -j 4

安装额外的库

pip install kenlm
pip install pypinyin
pip install https://github.com/kpu/kenlm/archive/master.zip

预处理中文训练语料

step-1: 去除英文和标点符号
step-2: 去除非中文和数字的
step-3: 分词并且将数字改成大写 将句子用空格拼接起来

import jieba
import re 

def num_to_ch(num):
    """
    功能说明:将阿拉伯数字 ===> 转换成中文数字(适用于[0, 10000)之间的阿拉伯数字 )
    """
    if len(num) == 5: return '手机号'
    num = int(num)
    _MAPPING = (u'零', u'一', u'二', u'三', u'四', u'五', u'六', u'七', u'八', u'九', ) 
    _P0 = (u'', u'十', u'百', u'千', ) 
    _S4 = 10 ** 4
    if num < 0 or num 
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值