阿里通义实验室大模型算法一面面经

1.自我介绍 2. Lora 原理(核心是低秩分解:将原始权重更新近似为两个低秩矩阵乘积,减少参数量,保留主导方向,训练高效) 3.了解 DeepSpeed 吗, ZeRO -1, ZeRO -2和 ZeRO -3分别做了哪些优化 (1 优化优化器状态,2 优化梯度,3 切分参数,全面节省显存) 4. Qwen的模型结构是怎么样的,相比于 LLaMA, DeepSeek 有什么区别(Qwen采用GQA+SwiGLU+RMSNorm,和LLaMA架构非常相似,差异在训练数据和tokenizer中文支持更好;DeepSeek只用MoE/ MLA架构,Qwen系列主要是Dense模型) 5.怎么缓解大模型的幻觉问题(RAG,RLHF对齐,事实监督) 6.大模型的 MoE 结构相比于 Dense 结构训练的难点在什么地方, DeepSeekMoE 为什么效果好,有什么值得我们借鉴创新点(MoE面临负载不均衡、训练不稳定问题;DeepSeekMoE通过细粒度专家和共享专家设计提升稳定性和效果) 7.知道FP16和BF16有什么区别吗,包括FP32和INT8这些,在训练大模型的时候,应该怎么选择(FP16精度高但易溢出,BF16动态范围大;训练常用BF16混合精度,推理用INT8量化加速) 8.讲一下 RLHF 的流程,写一下 PPO 和 DPO 的 Loss 表达式(训练奖励模型后用PPO/DPO优化策略;PPO Loss: policy ratio + KL 约束/ DPO Loss: logit preference diff + sigmoid binary loss) 9.对于超长上下文业界一般是怎么做的,你知道 Qwen 是怎么做的吗(业界常用 RoPE 变体/ 滑动窗口注意力/ 稀疏注意力等;Qwen使用YaRN和窗口注意力扩展上下文) 10.开放题:你觉得目前大模型的上限在哪里(推理能力、长期记忆、具身交互和能耗效率,需要架构创新和多模态融合突破) 11.代码:152.乘积最大子数组
全部评论

相关推荐

不愿透露姓名的神秘牛友
12-12 11:25
点赞 评论 收藏
分享
毕业要求:2026届划重点:组内仍有hc~~欢迎投递简历到 hongxuanrui.hxr@alibaba-inc.com岗位职责岗位职责 我们是谁: 洛神(英文名Achelous)是阿里云IaaS核心系统-云网络的代号,借助软件定义网络、高性能转发、云原生、分布式、硬件加速、AI调度等关键技术,洛神平台构建了超大规模、超高性能、极致弹性的云网络能力,目前支撑了VPC、ECS、SLB等关键产品,承载了阿里集团云计算、电商、支付、物流等核心业务。 团队在云网络领域深耕多年,坚持走自主研发的道路,沉淀了诸多核心技术,被顶级会议和各类评奖机构认可。 其中Achelous平台和其上的Sailfish网关平台论文分别被顶级会议SIGCOMM’2023和SIGCOMM’2021录用;“大规模高性能云计算网络系统”成果获2021年浙江省技术发明一等奖;“大规模智能云网络关键技术和平台”也荣获2021年CCF科学技术类技术发明一等奖;在2021年国际权威咨询机构Gartner的分析报告中,阿里云洛神云网络力压AWS、Azure和谷歌云,荣获总分第一名。 今天是一个万物上云、万物互联的时代,与日俱增的用户规模、浩若繁星的机器节点、错综复杂的业务组网、因时而动的流量突发,在持续给我们带来更高的技术挑战。我们将在新的征程上,为实现更大规模、更高性能、更强弹性、更加智能的云网络能力而努力。 如果你基础扎实、动手能力强、充满好奇心、对技术有着执着追求和热情,欢迎联系我们、加入我们。一起打造云计算核心技术,和全球顶尖企业同台竞技,用科技驱动世界创新发展、为社会创造价值、让生活更美好。岗位要求基础要求: (1) 熟悉一种或多种编程语言,如C/C++、Java、Go (2) 熟悉操作系统、计算机网络基础知识;了解基本的数据结构与算法 (3) 对技术有热情,保持好奇心 Tips:有SDN、Openstack、K8S、DPDK、OpenvSwitch、虚拟化等相关项目经验者优先;有网络、系统软件等领域的顶级会议论文者优先。
投递阿里云等公司10个岗位
点赞 评论 收藏
分享
评论
8
31
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务