腾讯CDG大模型一面-日常实习
1.项目八股
对于 Megatron-LM,多头注意力计算是使用的 TP 还是 PP,可以举个例子,比如说我现在注意力计算有16 个头,现在是有 4 个 gpu 做 TP,那么是如何进行实现的,是切分行还是切分列
2.手撕
最长递增子序列
3.反问
业务,对实习生的期望
对于 Megatron-LM,多头注意力计算是使用的 TP 还是 PP,可以举个例子,比如说我现在注意力计算有16 个头,现在是有 4 个 gpu 做 TP,那么是如何进行实现的,是切分行还是切分列
2.手撕
最长递增子序列
3.反问
业务,对实习生的期望
全部评论
相关推荐
点赞 评论 收藏
分享