自然语言处理 | (13)kenLM统计语言模型构建与应用

最新推荐文章于 2025-07-11 12:39:15 发布

CoreJT

最新推荐文章于 2025-07-11 12:39:15 发布

阅读量3.9k

点赞数 3

CC 4.0 BY-SA版权

分类专栏：自然语言处理文章标签：自然语言处理(NLP) kenLM工具库统计语言模型 n-gram 智能纠错

本文链接：https://blog.csdn.net/sdu_hao/article/details/87101741

本篇博客中我们将学习如何使用KenLM工具构建统计语言模型，并使用它完成一个典型的'智能纠错'文本任务。

1.实验准备

安装依赖

# 安装依赖
!apt install libboost-all-dev
!apt install libbz2-dev
!apt install libeigen3-dev

下载KenLM并编译

#下载kenlm压缩包并在当前目录解压
!wget -O - https://kheafield.com/code/kenlm.tar.gz | tar xz
#在kenlm下新建build目录
!mkdir kenlm/build
#编译
!cd kenlm/build && cmake .. && make -j8

安装KenLM

!cd kenlm/build && make install

2.训练数据

使用预处理(stemming等)好的英文训练数据(语料库),查看部分内容：

!head -5 /data/NLP/Language_Models/lm_train_data #/代表根目录  ./表示当前目录(可以省略) ../表示当前目录的父目录
#head -5 查看前5行

3.训练语言模型

通过命令行的方式使用kenlm，在之前的语料库上训练语言模型(计算各种组合的条件概率)，命令：

-o 后面的数字5代表使用N-gram的N取值为5。text.arpa 表示kenlm训练得到的文件格式为.arpa格式，名字为text。

# 我们训练一个简单的2-gram语言模型
!lmplz -o 2 </data/NLP/Language_Models/lm_train_data> /data/NLP/Language_Models/lm.arpa

最低0.47元/天解锁文章

200万优质内容无限畅学

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

CoreJT

关注关注

3
点赞
踩
11

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

NLP - KenLM

AI工程化、开源分享、文档翻译、代码笔记

06-23

1112

关于 kenlm N-gram 安装训练使用

python | 高效统计语言模型kenlm：新词发现、分词、智能纠错

素质云笔记

09-27

6608

之前看到苏神【重新写了之前的新词发现算法：更快更好的新词发现】中提到了kenlm，之前也自己玩过，没在意，现在遇到一些大规模的文本问题，模块确实好用，前几天还遇到几个差点“弃疗”的坑，解决了之后，就想，不把kenlm搞明白，对不起我浪费的两天。。 kenlm的优点（关于kenlm工具训练统计语言模型）：训练语言模型用的是传统的“统计+平滑”的方法，使用kenlm这个工具来训练。它快速，节省内存，...

1 条评论您还未登录，请先登录后发表或查看评论

统计语言模型工具-kenlm的安装

orangefly0214的博客

12-11

967

在最近的工作到需要一个语言模型，为句子打分，本来准备用srilm来做，后来调研发现kenlm无论在内存还是速度上都比srilm好很多。srilm很好安装，安装过程中基本没遇到什么问题，kenlm的安装就是一个大坑，至今自己都觉得是玄学安装，这边记录下安装过程。源码地址：https://github.com/kpu/kenlm 在安装kenlm之前需要先安装很多依赖包，主要有： 1.去b...

KenLM 高效 n-gram 语言模型库介绍及使用

最新发布

技术引领业务创新

07-11

1029

KenLM 是一个高效开源 n-gram 语言模型库，提供 Python 接口 kenlm，广泛应用于 NLP 任务。支持源码编译（需 Boost 库）和 Python 安装，可加载二进制或文本模型。核心功能包括整句评分、细粒度得分分析和状态流评分，适用于文本纠错、语言模型训练等场景。通过比较候选句子的概率分数实现智能纠错（如 a/an 替换），并支持高阶 N-gram 和状态复用优化性能。最佳实践建议使用二进制模型加速加载，英文 2-gram、中文 3-gram 以上效果更佳。KenLM 以高效评分和灵活

使用kenlm工具训练统计语言模型

发呆的比目鱼的博客

12-22

1532

使用kenlm工具训练统计语言模型 一、背景统计语言模型工具有比较多的选择，目前使用比较好的有srilm及kenlm，其中kenlm比srilm晚出来，训练速度也更快，而且支持单机大数据的训练。现在介绍一下kenlm的使用方法。二、使用kenlm训练 n-gram 工具主页：http://kheafield.com/code/kenlm/ 工具包的下载地址：http://kheafield.com/code/kenlm.tar.gz 使用。该工具在linux环境下使用方便，windows下使用需要用c

KenLM: 建立高效、精确的语言模型

gitblog_00099的博客

03-14

1101

KenLM: 建立高效、精确的语言模型 项目地址:https://gitcode.com/gh_mirrors/ke/kenlm 是一个开源的自然语言处理工具包，用于建立语言模型。它提供了一种灵活的方式来构建基于神经网络的统计语言模型，并可以应用于语音识别、机器翻译、文本分类等多个领域。使用场景语音识别：通过训练语言模型，提高语音识别系统的准确性和鲁棒性。机器翻译：将语言模型与传统机器翻译...

kenlm语言模型介绍

张海玲的博客

08-17

2867

语言模型 计算P(w1,w2,…,wn)P\left(w_{1}, w_{2}, \dots, w_{n}\right)P(w1,w2,…,wn) 利用链式法则：P(A,B,C)=P(A)P(B∣A)P(C∣A,B)P(A, B, C)=P(A) P(B | A) P(C | A, B)P(A,B,C)=P(A)P(B∣A)P(C∣A,B) P(w1,w2,…,wn)=P(w1)P(w2∣w...

Kenlm语言建模工具包：自然语言处理的应用与建模技术

n-gram模型是一种统计语言模型，通过考虑前n-1个词来预测第n个词出现的概率。这种模型尤其适用于语言建模、句子生成等任务，能够帮助理解自然语言的统计特性和结构规律。Kenlm通过高效的数据结构和算法，使得训练大...

Kenlm工具包在自然语言处理中的应用与建模

资源摘要信息:"Kenlm是一个开源的语言建模工具包，其主要用途是在自然语言处理（NLP）任务中建立语言模型。语言模型是理解自然语言和对自然语言进行有效处理的关键技术之一。它通过统计分析大量文本数据，以预测下一...

Ubuntu系统下kenlm自然语言处理学习工具介绍

这样的工具通常用于构建语言模型、文本分析、机器翻译、语音识别等多种与自然语言处理相关的应用。由于在编译过程中可能遇到依赖问题，用户需要有一定的Linux操作经验和软件包管理知识，以便于解决可能出现的问题。 ...

统计语言模型研究及其应用.pdf

03-21

自己收集的统计语言模型研究及其应用系列习题

使用kenlm训练语言模型，并对句子进行打分

u010995990的博客

11-02

2981

我们可以使用一个kenlm的python包去训练一个语言模型，并对每个句子进行打分。安装kenlm: pip install https://github.com/kpu/kenlm/archive/master.zip 训练语言模型 首先下载语言数据，我们可以下载Bible数据： wget https://github.com/vchahun/notes/raw/data/bible/bible.en.txt.bz2 然后创建一个process.py文件，对数据进行分词等预处理： import sy

绝对最简单实用的kenlm语言模型的安装及使用