循环神经网络RNN 长程依赖丢失 并行计算困难 2017年Transformer诞生 自注意力机制 并行计算架构 彻底改变NLP格局 循环神经网络RNN 长程依赖丢失 并行计算困难 2017年Transformer诞生 自注意力机制 并行计算架构 彻底改变NLP格局