微信大模型训练研发工程师(工程 Infra工作) 秋招继续哈 欢迎投递~~~

微信大模型训练研发工程师(工程 Infra工作)
岗位职责:
1.参与开发优化大模型训练框架,支持大规模高效稳定训练;
2.参与大模型结构设计,并联合业务进行模型训练效率和效果验证。

base北京, 校招 or日常实习都可
备注训练框架jd。********** 或者发简历到lucasbai@tencent.com
岗位要求:
1.熟练使用PyTorch框架,可对DDP训练的代码进行性能分析和优化;
2.熟练使用主流大模型训练框架DeepSpeed、Megatron,掌握3D并行、ZeRO机制、Flash-Attn等的原理、使用场景、优劣势以及可优化方向;
3.熟练掌握CUDA性能优化手段,有算子编写优化项目经验者优先;
4.对大模型前沿技术比较敏锐者优先;5.有实际大模型的训练调参和效果评测项目经验的优先;6.良好的沟通能力、解决问题能力。
全部评论
顶 速来
点赞 回复 分享
发布于 01-04 14:22 北京

相关推荐

01-08 02:04
已编辑
北京邮电大学 算法工程师
查看10道真题和解析
点赞 评论 收藏
分享
头像
01-29 09:32
门头沟学院 Java
这是当下时代我们学生和打工人的一个困境,悄悄分享一下自己的一些些心得。相比于自己去浩如烟海的文章中找资料,不如他们精准的推送,因此我所做的第一点就是通过关注的公众号来了解。他们做自媒体的为了时刻保持流量,必然要发文介绍最新最火的项目(哪怕一些可能有标题党的性质),我们刷到了就进去看看,成本很低,收益很大。下面还会有相关的推荐文章,都可以顺便康康。另一个就是B站,B站很多人会发视频介绍热门技术,关注一些知识区up,新视频发出来后我们刷一刷就能在主页看到,通常介绍新东西的视频也就10分钟左右,可以二倍速快速了解。再有就是自己的圈子,要积极和身边的大佬交友学习,当他们聊到一些自己没听过的东西时,积极凑过去学习一下然后自己去搜搜,甚至上手操作一下。最后如果在互联网领域,选一个有创新、学习氛围好的组,处于这种氛围中,自然能够受到熏陶。再提一点,如果有条件有时间可以去外网关注科技大佬他们会发文的。我由于比较忙暂时还没培养这个习惯。以上几点基本上就是我作为应届生目前尽量跟上时代的一些做法了。其实有点像在做学术,时刻关心最新的业界能力,然后考虑是否能落地。不过事实就是如此,在这行最好保持着热情和动力,才能长久的待下去。欢迎大家交流学习,分享更多了解最新技术的渠道和心得
千与千寻:找个好组和大佬带,环境熏陶比自学快十倍
AI求职实录
点赞 评论 收藏
分享
评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务