面试讲清MHA/MQA/GQA的最短路径

刚把 MHA / MQA / GQA 这块重新手撕了一遍,发现面试最容易讲乱的点其实就两个:

1)三者后半段计算几乎一样(score→softmax→加权和),真正不同只在 QKV 的生成维度和 K/V 的共享方式。
2)推理成本核心看 KV cache:MHA 最大,MQA 最小,GQA 是折中。

我自己用一句话区分:
- MHA:每个头都有自己的 K/V,表达强但贵;
- MQA:所有头共享一组 K/V,最快最省;
- GQA:按组共享 K/V,性能和成本更平衡。

如果被追问工程落地,我会补一句:
“线上一般优先 GQA,不会一刀切 MQA;要结合延迟目标和精度回归来定组数。”

#AI面试问题分享# #Transformer#
全部评论

相关推荐

三本咋了:觉得真的挺优秀的 实习title够了 ,字节实习跟agent不是很垂直 换个agent项目 差个机会,祈好运 ,有个教学类型的hello_agents 在github上面 感觉不太够用 (当然我还在学) ,你现在有好的项目了么,推荐一下呗
听劝,我这个简历该怎么改...
点赞 评论 收藏
分享
评论
点赞
1
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务