小红书LLM算法实习二面 八股盛宴
整体面试还是不错的,发一下问题给大家参考
1.Transformer的结构,有哪些可以学习的参数
2.多头自注意力结构,矩阵个数
3.fn结构
4.encodeddecoder区别
5.一个decoderblock由几个部分组成
6.encoder的输出,作为什么到decoder
7.为什么decoder更适合生成
8.decidedmask在推理中有用吗
9.rope在哪里加入
10.GQAMHAMQA 别
11.swiGLU的改进
1.Transformer的结构,有哪些可以学习的参数
2.多头自注意力结构,矩阵个数
3.fn结构
4.encodeddecoder区别
5.一个decoderblock由几个部分组成
6.encoder的输出,作为什么到decoder
7.为什么decoder更适合生成
8.decidedmask在推理中有用吗
9.rope在哪里加入
10.GQAMHAMQA 别
11.swiGLU的改进
全部评论
相关推荐
02-25 16:17
门头沟学院 Java 点赞 评论 收藏
分享
点赞 评论 收藏
分享
青春猪头少年不会没有...:我看到有同学直接用了我的内推码但是没有和我沟通,建议还是私聊下方便我反馈情况。
点赞 评论 收藏
分享
小柒正在找工作:不是27届的可以吗😭
点赞 评论 收藏
分享