首页 > 试题广场 >

在 Transformer 模型中,自注意力(Self-At

[单选题]
在 Transformer 模型中,自注意力(Self-Attention)机制是其核心组件。假设输入序列的长度为 N,隐藏层维度为 D,那么标准自注意力机制的计算复杂度主要由哪一项决定,并且其复杂度是多少?
  • Query 和 Key 矩阵的点积操作,复杂度为 O(N^2 *
  • Softmax 操作,复杂度为 O(N *
  • Value 矩阵的加权求和操作,复杂度为 O(N * D^2)。
  • 输出的线性变换层,复杂度为 O(N^2 * D^2)。

这道题你会答吗?花几分钟告诉大家答案吧!