51、循环神经网络:语言处理的探索与挑战

循环神经网络:语言处理的探索与挑战

1. 核心任务与语言模型

在自然语言处理领域,翻译和文本生成是两个重要的任务。翻译需要待翻译的文本、源语言和目标语言,有时还需要上下文信息,以理解不同地区或不同时期的习语和语言特征。而文本生成通常从一个种子或提示开始,算法以此为起点逐词构建文本,这种技术被称为自回归,自动将先前的输出拼接起来作为输入来预测下一个单词。通过算法生成文本的过程被称为自然语言生成(NLG)。

这两个任务都依赖于语言模型,它是一种以单词序列为输入,判断该序列是否为一个结构良好句子的计算方式,但它并不判断句子是否写得好、是否有意义或是否真实。训练好的神经网络常被视为语言模型。

2. 文本数字化的两种方法

为了让计算机处理文本,需要将文本转换为数字形式,常见的方法有两种:
- 基于字符的方法 :对文本中可能出现的所有符号进行编号。Unicode 是人类语言中最广泛的字符列表,最新版本的 Unicode 13.0.0 涵盖 154 种书面语言,识别出 143,859 个不同字符。可以为这些书写系统中的每个符号分配一个从 0 到约 144,000 的唯一数字。在实际操作中,为了简化,我们可以使用英语文本中最常见的 89 个字符进行文本生成示例。
- 基于单词的方法 :对文本中可能出现的所有单词进行编号。统计世界上所有语言的单词数量是一项艰巨的任务,这里以英语为例,现代英语词典通常约有 300,000 个词条。我们可以为每个词条分配一个从 0 开始的唯一数字,这些单词及其对应数字构成我们的词汇表。本章的大多数示例采用基于单词的方法。

通过这些

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值