内推|视频生成强化学习算法工程师|米哈游|实习生
内推码:J4VQ9
岗位链接:链接
岗位名称:视频生成强化学习算法工程师
投递的时候,请填写内推码,方便我跟进后续流程;实习岗位一般至少5个工作日才有进度更新,请耐心等候;
也欢迎同学们内部相互推荐,实习相对比较容易拿到米哈游的offer
工作职责
负责视频生成模型在后训练/强化学习阶段的算法研发与模型训练,运用前沿强化学习算法优化模型的稳定性与视频生成质量,并实现对人类专家审美偏好的深度对齐。
核心职责
- 1、深入研究前沿强化学习算法,负责视频生成任务中的基于强化学习的优化方案探索及训练框架搭建;
- 2、结合视频生成模型的效果短板,分析强化学习算法的优化目标,设计数据收集方案;
- 3、设计并实现面向视频生成的多目标强化学习算法,设计并训练奖励模型(Reward Model);
- 4、撰写高质量技术报告与论文,与团队共同推动技术创新,保持行业领先地位。
任职要求
- 1、硕士及以上学历,计算机科学、电子工程、人工智能等相关专业;
- 2、2年以上图像/视频生成、强化学习或其他计算机视觉相关领域工作经验;
- 3、具备出色的编程与算法实现能力,熟练掌握主流深度学习框架(如 PyTorch),并拥有熟练的模型训练与调优经验;
加分项
- 1、熟悉扩散模型及其不同变体,如 Score Model、DDPM、DDIM、Flow Matching 等,了解 SDE、ODE 等理论范式;
- 2、作为核心作者在顶级机器学习/视觉/图形学会议或期刊(如 CVPR、ICCV、ECCV、NeurIPS、ICML、ICLR、SIGGRAPH)发表过高水平论文;
- 3、具备大规模分布式模型训练的实际经验;
- 4、在开源社区(如 GitHub)有影响力项目的贡献经历;
- 5、具备强烈的自我驱动力、优秀的团队协作能力,以及对前沿技术挑战的极大热情;
面向对象
全体在校生
查看11道真题和解析