字节大模型Agent算法二面

项目深挖
1.训练时显存占用高的瓶颈在哪?做了哪些显存优化?
2.如果重新做一次，你会在哪些环节提前做ablation?
3.在多Agent系统中，如何保证异步任务执行的稳定性和结果一致性?
4.如果Agent推理API需要低延迟响应，你会从哪些方面做系统级优化?
5.你做Prompt优化时，是如何判断优化后的Prompt在Agent推理链路中性能提升的?用什么指标来衡量?
6.你提到用DeepSpeed做SFT训练，请讲一下DeepSpeedZeROStage1-3的区别，以及什么时候用FSDP会更好?
7.在你的问答Agent项目中，数据集构造的自动化流程是怎么实现的?
8.你是如何利用多Agent协同来提高推理正确率的?调度策略如何实现?
9.介绍一下RAG的整体流程。在Agent落地场景中，RAG会遇到哪些延迟和正确率问题?你怎么优化召回链路?
八股
1.AdamW与Adam在权重衰减上的实现差异?
2.梯度累积等价于batch扩大的严格条件是什么?
3.PPO的核心目标函数是什么?每个符号的物理意义?
4.相比PPO,GRPO的"Group"体现在哪一步?
5.KL散度在RLHF阶段出现的位置、作用以及过大/过小分别会导致什么现象?
6.Multi-Agent场景里，Reflection模块与Memory模块的输入输出各自是什么?它们如何解耦又能互相增强?

全部评论

推荐最新楼层

Easkwon

The University of Manchester 深度学习

感谢分享，祝好运

点赞回复分享

发布于 01-29 12:06 贵州

02-02 15:32

南京信息工程大学 Java

求 agent 开发简历修改建议

另外现在0实习是应该想办法找一个小厂实习还是编一个实习再去春招呢。后端 java 实在学不进去了🥲

HR_丸山彩同学：你的项目描述里，系统设计讲了很多：MemCube是什么、三级存储架构怎么设计、四种遗忘策略分别是什么。这些面试的时候讲没问题，但简历上不需要这么细。简历要突出的是影响力，不是实现细节。面试官看简历的时候想知道的是「这个项目有多大价值」，不是「这个项目具体怎么实现的」。实现细节是面试时候聊的怎么改：技术细节可以精简为一句「采用三级存储架构+四种遗忘策略」，把省出来的篇幅用来写影响力。比如：项目有没有开源？有没有写成技术博客？有没有被别人使用过？校园经历没有任何信息量，任何人都可以写这句话，写了等于没写。更关键的是，你投的是技术岗，校园活动经历本来就不是加分项。如果非要写，必须写出具体的数字和成果。如果你没有这些数字，那就老老实实删掉

「端到端耗时缩减30-40%」要给出确切数字和绝对值。从1000ms降到600ms是降了40%，从100ms降到60ms也是降了40%，但这两个含义完全不一样。其他也是，涉及到数据，准备好证据，口径统一，面试会问「熟练」「熟悉」「了解」混在一起用，读起来很乱。而且「了解前端需求」最好改成「具备前后端协作经验」