6.12使用tensorflow来搭建一个Transformer

炫云云

于 2021-05-20 17:37:34 发布

阅读量1.4k

点赞数 1

CC 4.0 BY-SA版权

分类专栏：深度学习算法理论 Tensorflow深度学习从入门到超神文章标签： python 深度学习 tensorflow 自然语言处理机器学习

117 篇文章 ¥129.90 ¥299.90

订阅专栏

59 篇文章 ¥59.90 ¥99.00

订阅专栏

本文详细介绍了如何使用Tensorflow构建Transformer模型，包括位置嵌入、Mask编码、self-attention、多头注意力、前馈网络、编码器和解码器的构建。同时，文章涵盖了机器翻译任务的实现，包括数据预处理、模型训练和评估。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

import tensorflow_datasets as tfds
import tensorflow as tf

import time
import numpy as np
import matplotlib.pyplot as plt

因为不像RNN那样是按顺序处理输入，RNN有每个token的位置信息。而transformer是并行运行，这里要

了解本专栏