京东搜索推荐算法一面-日常实习
1.PPO、GRPO、DPO 的损失函数
2.给你看 DPO的公式,从数学关系上推一下刚开始的 loss 是多少-这里是In2
3.这里为什么使用 RL,而不是用 RAG去幻觉-RAG 针对于知识缺失去幻觉,RL针对的是行为推理层面去幻觉
4.奖励函数是如何设计的
5.如果一个句子中确定性的词汇比较多,这样导致会不会导致整体句子的熵比较低,如何解决
6.GNN里边你觉得最重要的知识点是什么
7.手撕:合并 K个升序链表
2.给你看 DPO的公式,从数学关系上推一下刚开始的 loss 是多少-这里是In2
3.这里为什么使用 RL,而不是用 RAG去幻觉-RAG 针对于知识缺失去幻觉,RL针对的是行为推理层面去幻觉
4.奖励函数是如何设计的
5.如果一个句子中确定性的词汇比较多,这样导致会不会导致整体句子的熵比较低,如何解决
6.GNN里边你觉得最重要的知识点是什么
7.手撕:合并 K个升序链表
全部评论
相关推荐
点赞 评论 收藏
分享
查看11道真题和解析