京东搜索推荐算法一面-日常实习

1.PPO、GRPO、DPO 的损失函数
2.给你看 DPO的公式,从数学关系上推一下刚开始的 loss 是多少-这里是In2
3.这里为什么使用 RL,而不是用 RAG去幻觉-RAG 针对于知识缺失去幻觉,RL针对的是行为推理层面去幻觉
4.奖励函数是如何设计的
5.如果一个句子中确定性的词汇比较多,这样导致会不会导致整体句子的熵比较低,如何解决
6.GNN里边你觉得最重要的知识点是什么
7.手撕:合并 K个升序链表
全部评论

相关推荐

评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务