循环神经网络在文本处理与翻译中的应用

### 循环神经网络在文本处理与翻译中的应用 #### 1. 长短期记忆网络（LSTM）概述长短期记忆网络（LSTM）是一种长期记忆网络。不同的循环神经网络（RNN）模型在宾夕法尼亚树库语料库上的困惑度表现不同，具体如下表所示： | 作者 | 模型 | 参数数量 | 层数 | 困惑度 | | --- | --- | --- | --- | --- | | Pascanu 等（2013） | RNN | 610 万 | - | 107.5 | | Melis 等（2017） | LSTM | 1000 万 | 4 | 60.1 | | Melis 等（2017） | LSTM | 2400 万 | 4 | 58.3 | | - | AWD - LSTM（LSTM） | 2400 万 | 3 | 57.3 | 由表可知，LSTM 模型在困惑度上表现相对较好，困惑度值越小，模型性能越好。使用莎士比亚戏剧字母训练的三层 LSTM 网络生成的文本，能较好地捕捉莎士比亚的语言风格，且只有少量拼写错误。但和维基百科模型一样，在生成一定数量的单词后，内容上下文会丢失，模型会跳到其他主题。基本的 LSTM 结构是根据启发式考虑构建的，其是否为最优结构并不明确。Melis 等人（2017）研究了多种循环神经网络架构并比较了它们的性能。所有模型的可训练参数数量相同，超参数也经过了广泛优化。总体而言，LSTM 网络比其他网络架构略有优势，并且适当的 dropout 正则化非常重要。 #### 2. 双向 LSTM 网络用于单词属性预测 RNN 的一个应用是预测序列元素的特征，命名实体识别（NER）就是这样一个信息提取任务。每天新闻和互联网上都会出现新的人名、产品名、组织名、地名等。由于地理名称数据库中地理名称众多，且常见单词常作为地名出现，因此不能通过列表匹配来识别名称，而必须利用上下文信息识别名称的属性。 CoNLL 2003 数据集是该任务的基准数据集，它包含路透社的英文新闻报道，共 1700 万个单词，每个单词都被手动标注为 PER（人）、ORG（组织）、LOC（地点）、MISC（其他名称）和 O（其他单词）类别之一。双向 LSTM（BiLSTM）模型用于此任务，其工作流程如下： 1. 输入：使用单词嵌入，在训练过程中进行估计。 2. 前向 LSTM：从句子开头到结尾更新隐藏向量，将先前单词的信息存储在隐藏向量 $\overrightarrow{h_t}$ 中。 3. 后向 LSTM：从句子结尾到开头传播隐藏向量，将后续单词的信息存储在隐藏向量 $\overleftarrow{h_{t + 1}}$ 中。 4. 预测：将两个 LSTM 的隐藏向量 $[\overrightarrow{h_t}, \overleftarrow{h_{t + 1}}]$ 连接起来，作为逻辑回归模型的输入，进行 NER 类别的预测。 ```mermaid graph LR classDef startend fill:#F5EBFF,stroke:#BE8FED,stroke-width:2px; classDef process fill:#E5F6FF,stroke:#73A6FF,stroke-width:2px; classDef decision fill:#FFF6CC,stroke:#FFBC52,stroke-width:2px; A([输入单词]):::startend --> B(单词嵌入):::process B --> C(前向 LSTM):::process B --> D(后向 LSTM):::process C --> E(拼接隐藏向量):::process D --> E E --> F(逻辑回归模型):::process F --> G([输出 NER 标签]):::startend ``` Lample 等人（2016）使用预计算的长度为 100 的嵌入，这些嵌入是在非常大的文档集合上训练得到的，采用了考虑邻域中单词顺序的 Word2vec 变体来计算嵌入。该模型在英文 CoNLL 数据上的 F 值达到 90.2%，在德文 CoNLL 数据上达到 73.1%。F 值是精确率和召回率的调和平均值，这表明英文模型平均能正确识别十分之九的名称，而德文模型只能正确识别约四分之三。 #### 3. RNN 在时间序列预测中的应用 RNN 还可用于预测时间序列的下一个值，时间序列是按时间顺序排列的一个或多个测量值序列，如某些时间点上几家公司的股票价格。在时间序列预测中，使用时间 t 的时间序列值向量 $x_t$ 作为 RNN 的输入，输出是目标值向量，如时间 t + 1 的时间序列值向量 $y_{t + 1}$。Mushtaq 等人（2019）对这类方法进行了概述，LSTM 模型在其中发挥着重要作用，可用于经济预测、气象学甚至监测工程过程。 #### 4. 循环神经网络的可视化 LSTM 具有广泛的记忆向量和隐藏向量，能够捕捉单词和短语之间的复杂关系。Str

最低0.47元/天解锁专栏

赠100次下载

继续阅读点击查看下一篇

400次会员资源下载次数

300万+ 优质博客文章

1000万+ 优质下载资源

1000万+ 优质文库回答

复制全文

循环神经网络在文本处理与翻译中的应用

相关推荐

专栏目录

循环神经网络在文本处理与翻译中的应用

相关推荐

卷积神经网络在中文文本分析任务中的应用研究

卷积神经网络在中文文本分析任务中的应用

情感分类_文本识别_文本分类_循环神经网络_

卷积神经网络与循环神经网络结合的文本处理方法

循环神经网络(RNN)在文本序列处理中的应用

循环神经网络在机器翻译中的应用

深度学习技术在文本预测中的应用 - 详解使用MXNet的循环神经网络

机器翻译：循环神经网络的应用与挑战

循环神经网络在自然语言处理中的应用

文本生成技术：探索循环神经网络在TensorFlow中的应用

php mysql查询表的各字段名以及备注

电气自动化论文-关于电气自动化仪表与自动化控制技术的思考.doc

专栏目录

最新推荐

Tableau基础图表的创建与理解

Tableau高级功能：地图与仪表盘操作指南

数据故事创作：从理论到实践的全面指南

概率注释模型：特征添加与序列标注任务建模

预训练模型的十大关键问题探索

电子商务中的聊天机器人：开发、测试与未来趋势

利用MicrosoftFairlearn实现AI系统的公平性

优化PowerBI体验与DAX代码的实用指南

Snowflake数据平台全方位解析

问答与对话系统技术探索