小红书LLM算法实习二面 八股盛宴

整体面试还是不错的,发一下问题给大家参考
1.Transformer的结构,有哪些可以学习的参数
2.多头自注意力结构,矩阵个数
3.fn结构
4.encodeddecoder区别
5.一个decoderblock由几个部分组成
6.encoder的输出,作为什么到decoder
7.为什么decoder更适合生成
8.decidedmask在推理中有用吗
9.rope在哪里加入
10.GQAMHAMQA 别
11.swiGLU的改进
全部评论

相关推荐

评论
1
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务