阿里 飞猪 大模型 暑期实习 一面&二面&hr面

已发意向

一面

手撕:三数之和

过实习

预训练数据构造

数据配比

如果现在重做一遍项目,怎么跟DeepSeek的技术结合

能不能直接通过RL训练chat模型

大模型八股

sft、dpo的区别,什么时候用哪个

MHA、GQA、MLA的异同

从Bert开始讲,位置编码的演进和注意力机制的关系

py八股

除了py外,还有用什么语言

进程、线程区别,什么时候用哪个

平常用的什么包,numpy、pandas有用吗

生成器、迭代器

日常

有没有其他在投,城市偏好

反问

评价?整体不错

业务?有训练做知识注入、也有做问答系统

流程?三面,两面技术一面hr

大概40min

二面

无手撕

聊科研

介绍实习

灾难性遗忘怎么缓解的

sft后什么情况下用dpo

对大模型的发展方向怎么看

反问

评价?满意,过

给实习生资源做探索性实验?给

约25min

hr面

问base、实习收获

其他的忘了,没有技术相关的

反问

意向?3天内,实际面完秒发

约20min

总结:一面有些八股,问py八股是没想到的,另外三轮面试都问base,说广东人很多不愿意出省

#牛客AI配图神器#

#大模型##互联网##暑期实习##阿里#
全部评论
佬,可以问问二面完多久出的结果吗
点赞 回复 分享
发布于 2025-05-15 19:50 四川
大佬,请问是大模型应用开发岗吗?
点赞 回复 分享
发布于 2025-04-16 14:20 山东
请问接受了意向书就是最终确定去了吗,还是后面还有正式的offer
点赞 回复 分享
发布于 2025-04-14 16:44 广东
佬,时间线大概是怎么样,一面完多久二面的,我一面被拷问麻了,根本不敢问评价
点赞 回复 分享
发布于 2025-04-10 18:12 陕西

相关推荐

1.自我介绍;2.本科毕设项目介绍;3.Retinaface和Facenet的具体网络模型;4.Retinaface是如何检测人脸的,Facenet是如何识别人脸的;5.项目的创新点有什么,评判指标是什么;6.检测和识别用的时间,其中esp8266,mg996r分别是做什么用的;7.大模型量化比赛项目介绍;8.AWQ和GPTQ是什么;9.什么模型适合用AWQ,什么模型适合用GPTQ;10.其中最优的参数是怎么得到的;11.llm- benchmarker怎么用的,是什么评判指标;12.了解算子吗?(marlin kernel)详细说一下这个算子是什么;13.除了量化其他的方法了解吗?(压缩、减枝、LoRA)14.LoRA是什么;QLoRA是什么?为什么要用LoRA;15.具体的原理是怎么样的;16.如何将LoRA结合到TransFormer各个层?17.介绍一下TransFormer的架构;18.Encoder和Decoder是由什么组成的;19.MHA细节是怎么样的(QKV),softmax是干什么用的;20.单头注意力和多头注意力有什么区别;21.为什么MHA下面要除根号d;22.潜在多头注意力了解吗,多头注意力的作用;23.FFN详细说一下;24.残差链接有什么用;25.Layer Normalization有什么用;26.Layer Normalization和Batch  Normalization的区别;27.Qwen3的基础架构是怎么样的;28.Qwen3和Qwen2.5相比有什么区别;29.Qwen3和DeepSeek有多少个头;30.大模型要训练出思维链应该如何训练;31.如何平衡精度和推理速度,怎么做trade off的;32.了解Agent吗,做过什么agent项目33.Dense模型是什么;34.MoE、MLA是什么,详细讲一下;35.LoRA的偏置矩阵详细说一下,为什么LoRA初始化A要正态分布,B要初始化为0;36.秩是什么意思;怎么理解;37.Qwen3哪里做的好;38.快手实习项目介绍;39.经纬恒润实习项目介绍;40.了解量化交易吗;41.你平时做交易是趋势还是阶段?------二更已oc
你最近因为什么迷茫?
点赞 评论 收藏
分享
评论
6
22
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务