首页 > 试题广场 >

深入剖析自注意力机制及其变体,以下哪些陈述准确(多选)

[不定项选择题]
深入剖析自注意力机制及其变体,以下哪些陈述准确(多选)
  • 在 GQA 中不同组 Query 必须串行计算,无法并行
  • 从 MHA 到 GQA/MQA 的动机之一是减小推理时 KV 缓存以降显存
  • 单个头内部 Query 和 Key 的维度 d_k 必须相等,Value 维度可不同
  • 将 QK^T 除以 sqrt(d_k) 有助于稳定梯度,避免 softmax 饱和

这道题你会答吗?花几分钟告诉大家答案吧!