26校招美团北斗大模型算法二面
1.八股:bf16 和 float16 的区别?各占多少位?训练中如何选择?
2.八股:DeepSpeed Zero 各阶段分别做了哪些优化?
3.八股:如何估算 LLaMA-7B 模型推理时的显存占用?
4.八股:Prefix LM、Causal LM、Encoder-Decoder 三类架构的适用场景与优缺点?
5.八股:Qwen 或 DeepSeek 技术报告中提到的关键创新点有哪些?(如 RoPE 外推、MoE)
6.项目:PPO/GRPO 微调后,如何防止模型在分布外(OOD)问题上性能崩塌?
7.项目:是否自己实现过 RLHF 流程?不用框架能否手写 PPO 核心逻辑?
8.项目:模型部署用了什么框架(vLLM/TGI/自研)?如何优化推理延迟和吞吐?
9.项目:未来希望专注大模型哪个方向?(对齐 / 推理加速 / 长上下文?)为什么?
10.代码题:LeetCode 25:K 个一组翻转链表
2.八股:DeepSpeed Zero 各阶段分别做了哪些优化?
3.八股:如何估算 LLaMA-7B 模型推理时的显存占用?
4.八股:Prefix LM、Causal LM、Encoder-Decoder 三类架构的适用场景与优缺点?
5.八股:Qwen 或 DeepSeek 技术报告中提到的关键创新点有哪些?(如 RoPE 外推、MoE)
6.项目:PPO/GRPO 微调后,如何防止模型在分布外(OOD)问题上性能崩塌?
7.项目:是否自己实现过 RLHF 流程?不用框架能否手写 PPO 核心逻辑?
8.项目:模型部署用了什么框架(vLLM/TGI/自研)?如何优化推理延迟和吞吐?
9.项目:未来希望专注大模型哪个方向?(对齐 / 推理加速 / 长上下文?)为什么?
10.代码题:LeetCode 25:K 个一组翻转链表
全部评论
相关推荐
12-25 21:45
吉林大学 测试工程师 点赞 评论 收藏
分享
查看11道真题和解析