1.项目介绍2.LoRA 和 Prefix Tuning的区别?在什么场景下选择 LoRA?3.如果要用 LORA 做电商推荐场景的微调,你会怎么设计数据和标签?4.GRPO 和 PPO 的区别在哪?GRPO 的优化目标函数怎么写?5.搜索中 RAG的向量检索会受到长尾商品影响,你会如何缓解?6.如果商品知识库实时更新,你怎么保证 RAG的召回结果和库存一致?7.Reflection 机制里,如何判断一个 Agent 的失败是由知识缺失还是工具调用错误引起的?8.Toolformer 中通过自监督学习生成 tool call 数据,这个训练范式和 RLHF 的差别在哪里?为什么它更容易泛化?9.语义歧义(如“苹果”既是品牌也是水果)在搜索链路中通常怎么建模?多义词消解和上下文建模的核心方法分别是什么?10.算法题:实现 LRU