首页 > 试题广场 >

在标准 Transformer 模型中,自注意力(Self-

[单选题]
在标准 Transformer 模型中,自注意力(Self-Attention)机制是其核心组件。假设输入序列的长度为 N,模型的隐藏层维度(或称为表示维度)为 d,那么标准自注意力模块的计算复杂度主要是?
  • O(N * d^2)
  • O(N^2 · d)
  • O(N · d)
  • O(N^2 * d^2)

这道题你会答吗?花几分钟告诉大家答案吧!