文章目录 transformer模型结构 位置嵌入 Mask编码 padding mask Sequence mask self-attention Multi-head attention 前馈网络 Encoder and decoder Encoder layer Decoder layer Encoder Decoder 组成Transformer 机器翻译 设置超参数 优化器 损失和指标 训练和检查 评估 参考 import tensorflow_datasets as tfds import tensorflow as tf import time import numpy as np import matplotlib.pyplot as plt transformer模型结构 位置嵌入 因为不像RNN那样是按顺序处理输入,RNN有每个token的位置信息。而transformer是并行运行,这里要