在 GQA 中不同组 Query 必须串行计算,无法并行
从 MHA 到 GQA/MQA 的动机之一是减小推理时 KV 缓存以降显存
单个头内部 Query 和 Key 的维度 d_k 必须相等,Value 维度可不同
将 QK^T 除以 sqrt(d_k) 有助于稳定梯度,避免 softmax 饱和
这道题你会答吗?花几分钟告诉大家答案吧!
扫描二维码,关注牛客网
下载牛客APP,随时随地刷题