腾讯CDG大模型一面-日常实习

1.项目八股
对于 Megatron-LM,多头注意力计算是使用的 TP 还是 PP,可以举个例子,比如说我现在注意力计算有16 个头,现在是有 4 个 gpu 做 TP,那么是如何进行实现的,是切分行还是切分列
2.手撕
最长递增子序列
3.反问
业务,对实习生的期望
全部评论
我也要去当鹅孝子了
点赞 回复 分享
发布于 今天 18:15 北京
谢谢大佬分享~
点赞 回复 分享
发布于 今天 18:15 江苏

相关推荐

用微笑面对困难:你一定很懂劳务法 是不是因为这个hr不敢要
点赞 评论 收藏
分享
评论
点赞
1
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务