LRJ-jonas 2022-11-21 14:28 采纳率: 37.5%
浏览 7
已结题

多头注意力是怎么分割的?

问题

Multi-head attention进行分割时,是如何分割的?为什么这样做?

代码

Parameters:
x: Tensor
A tensor with shape [batch_size, seq_length, depth]
Returns:
A tensor with shape [batch_size, num_heads, seq_length, depth / num_heads]

我想要达到的结果

想要图解

  • 写回答

0条回答 默认 最新

    报告相同问题?

    问题事件

    • 系统已结题 11月29日
    • 创建了问题 11月21日