- 博客(4)
- 收藏
- 关注
原创 基于Transformer实现机器翻译(日译中)
函数首先遍历给定的日语和英语句子列表,对每一对句子进行以下处理步骤:去除行尾换行符,使用对应的分词器进行编码,然后将每个token(单词或子词)转换为词汇表中的索引,并将这些索引构建成Long类型的PyTorch张量。这两个类共同作用于NLP模型的输入层,其中TokenEmbedding负责将单词转换为词嵌入,而PositionalEncoding则在此基础上添加位置信息,两者结合使模型能够理解文本中单词的语义以及它们在句子中的相对位置,这是Transformer模型理解序列数据的基础。
2024-06-22 10:57:48
1003
原创 自然语言处理中的机器翻译
最后,在所有参考翻译结果的分数的最大值并除以机器翻译结果的总长度,作为机器翻译的准确率。这段代码的说明了read_data函数的功能:从一个文本文件中读取输入输出序列对,对每一对序列进行预处理以符合模型处理的要求(如限制序列长度、构建词汇表、转换为索引张量等),最后返回处理后的输入输出词汇表以及一个包含输入输出数据对的TensorDataset对象,为后续的机器翻译或其他序列到序列学习任务做准备。在下面的例子中,编码器的时间步数为10,批量大小为4,编码器和解码器的隐藏单元个数均为8。
2024-06-17 00:45:54
1155
原创 自然语言处理中的 机器翻译
最后,在所有参考翻译结果的分数的最大值并除以机器翻译结果的总长度,作为机器翻译的准确率。这段代码的说明了read_data函数的功能:从一个文本文件中读取输入输出序列对,对每一对序列进行预处理以符合模型处理的要求(如限制序列长度、构建词汇表、转换为索引张量等),最后返回处理后的输入输出词汇表以及一个包含输入输出数据对的TensorDataset对象,为后续的机器翻译或其他序列到序列学习任务做准备。在下面的例子中,编码器的时间步数为10,批量大小为4,编码器和解码器的隐藏单元个数均为8。
2024-06-17 00:39:18
769
原创 自然语言处理 前馈网络
1. 实验内容我们通过观察感知器来介绍神经网络的基础,感知器是现存最简单的神经网络。感知器的一个历史性的缺点是它不能学习数据中存在的一些非常重要的模式。例如,查看图4-1中绘制的数据点。这相当于非此即彼(XOR)的情况,在这种情况下,决策边界不能是一条直线(也称为线性可分)。在这个例子中,感知器失败了。图4-1 XOR数据集中的两个类绘制为圆形和星形。请注意,没有任何一行可以分隔这两个类。在这一实验中,我们将探索传统上称为前馈网络的神经网络模型,以及两种前馈神经网络:多层感知器和卷积神经网络。
2024-06-14 02:02:37
296
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人