阿里多模态大模型算法二面-实习面经
1.项目经历
2.模型的 loss 函数前乘以10,会对训练造成什么影响?
3.deepseek v3的 rope 实现? deepseek r1的训练过程?
4.做过 rag 是吗?介绍 graph rag ?
5.bge 和 gte 模型怎么训练的?为什么不能直接用 bert - base 来做余弦相似度召回?
6.对比学习的常用 loss 有哪些? InfoNCE 的超参数?温度系数对训练的影响?
7. gradient checkpointing 原理? gradient _ accumulation 原理?
8.多模态大模型的预训练原理?预训练一般分为几个阶段? ViT 现在一般用什么方法进行预训练?
9. 手撕:梯度下降求平方根。
2.模型的 loss 函数前乘以10,会对训练造成什么影响?
3.deepseek v3的 rope 实现? deepseek r1的训练过程?
4.做过 rag 是吗?介绍 graph rag ?
5.bge 和 gte 模型怎么训练的?为什么不能直接用 bert - base 来做余弦相似度召回?
6.对比学习的常用 loss 有哪些? InfoNCE 的超参数?温度系数对训练的影响?
7. gradient checkpointing 原理? gradient _ accumulation 原理?
8.多模态大模型的预训练原理?预训练一般分为几个阶段? ViT 现在一般用什么方法进行预训练?
9. 手撕:梯度下降求平方根。
全部评论
你是什么时候投递的
相关推荐
查看14道真题和解析