阿里多模态大模型算法二面-实习面经

1.项目经历
2.模型的 loss 函数前乘以10,会对训练造成什么影响?
3.deepseek v3的 rope 实现? deepseek r1的训练过程?
4.做过 rag 是吗?介绍 graph rag ?
5.bge 和 gte 模型怎么训练的?为什么不能直接用 bert - base 来做余弦相似度召回?
6.对比学习的常用 loss 有哪些? InfoNCE 的超参数?温度系数对训练的影响?
7. gradient checkpointing 原理? gradient _ accumulation 原理?
8.多模态大模型的预训练原理?预训练一般分为几个阶段? ViT 现在一般用什么方法进行预训练?
9. 手撕:梯度下降求平方根。
全部评论
你是什么时候投递的
点赞 回复 分享
发布于 昨天 18:50 陕西

相关推荐

评论
1
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务