美团智能体
#面试问题记录#
1.简历
2.介绍 DeepResearch 几篇工作?主 Agent 和子 Agent 有什么区别,主要哪些子 agent?
3.RL tool 的 loss 有什么区别?
4.Reasoning 的 loss 有什么其他特点,介绍你知道的(think 和 nothink 的 loss)。
5.PPO、GRPO、DPO 区别。6.DAPO 了解多少,介绍创新点。
6.还有其他 GRPO 变体吗?介绍创新点。
7.手撕:rope,打开 llama github 源码的 rope 介绍和我实现的区别
总结:RL tool的loss忘了,只有这一个失误,然后喜提人才库
1.简历
2.介绍 DeepResearch 几篇工作?主 Agent 和子 Agent 有什么区别,主要哪些子 agent?
3.RL tool 的 loss 有什么区别?
4.Reasoning 的 loss 有什么其他特点,介绍你知道的(think 和 nothink 的 loss)。
5.PPO、GRPO、DPO 区别。6.DAPO 了解多少,介绍创新点。
6.还有其他 GRPO 变体吗?介绍创新点。
7.手撕:rope,打开 llama github 源码的 rope 介绍和我实现的区别
总结:RL tool的loss忘了,只有这一个失误,然后喜提人才库
全部评论
相关推荐
01-10 19:44
上海大学 Java
牛客57020934...:现在大厂就很迷,感觉要么就是算法+agent,要么就是开发+agent。。还是招和原来一样的岗位,只是都要求赋能agent了 点赞 评论 收藏
分享

查看15道真题和解析