项目深挖 1. 训练参数设置&资源配置细节2. DPO训练loss的直观含义(别讲公式!要大白话)3. 为啥不直接SFT,非要搞DPO?(核心是对齐效果差异)4. 负样本构造逻辑追问:长链路GUI下正负样本长度不一有啥影响?原因是啥?5. 为啥选GRPO?对比过其他算法吗?6. tool response需要loss mask吗?理由是啥?7. 训练任务中mcp构造数量+具体case8. 训了几版模型?印象最深的bad case是啥?八股问答1. 看过AUTOGLM论文吗?其他大模型论文呢?印象最深的点是啥?2. 给定模型层数+隐藏层维度,估算参数量级+解释计算逻辑3. 同参数同序列长度,计算kvcache大小手撕代码流式输入输出处理规则(划重点!优先级很关键)1. 被<think></think>包裹的字符直接隐藏(优先级最高)2. mcp调用只输出instruction里的内容3. 其余内容正常输出