太初 大模型算法 一面

两个岗位同时约面,进错会议了尴尬

面试时长:50min

面试内容:
* 自我介绍
* 实习内容介绍
* 数据并行
* ft框架
* 随机森林
* gbdt
* 优化器了解哪些
* bert和gpt
* transformer结构
* 线上服务推理如何提高吞吐量
* 手撕:链表加法
全部评论
赛文哥你是真全栈工程师,顶层到大模型,底层到c,Java,Python,Linux,深度学习,cv,统计学,数据科学你都会。你要是哪天告诉我你会手搓芯片我都不意外
40 回复 分享
发布于 2023-11-09 13:23 浙江
赛文他还在输出!还在输出!
11 回复 分享
发布于 2023-11-09 12:47 湖北
赛文哥,你现在说你会ic,我都信
6 回复 分享
发布于 2023-11-09 12:18 四川
赛文你是不是一个面试团队,怎么啥都会😭
4 回复 分享
发布于 2023-11-09 17:52 湖北
不是,你啥都会啊
3 回复 分享
发布于 2023-11-09 21:24 北京
赛文哥不是面过太初么
3 回复 分享
发布于 2023-11-09 14:40 江苏
赛文佬你怎么还在面!
2 回复 分享
发布于 2023-11-09 16:24 陕西
大模型也能面啊😍
2 回复 分享
发布于 2023-11-09 15:46 湖北
赛文赛文,我的超人
2 回复 分享
发布于 2023-11-09 12:14 四川
TM的,赛文还在追我!
1 回复 分享
发布于 03-28 16:14 海南
我咋没看懂呢。哥 本科生也能面大模型了吗😂
1 回复 分享
发布于 2024-01-05 03:31 广东
哥,你咋啥都会啊
1 回复 分享
发布于 2023-11-10 22:31 北京
我现实中的超人,赛文!!!❤️
1 回复 分享
发布于 2023-11-10 10:40 湖北

相关推荐

1.  注意力机制:请简述 MHA、MQA 和 GQA 三种注意力机制的核心区别。2.  模型架构:Dense 模型与 MoE 模型有何本质区别?3.  路由机制:MoE 模型中,路由(Routing)机制具体是如何工作的?4.  LoRA 微调:请阐述 LoRA 的原理,以及其中 A、B 矩阵的初始化方式和秩(Rank)的设置考量。5.  强化学习:请对比 DPO、PPO 和 GRPO 的原理与区别,并写出 DPO 的 Loss 函数公式。6.  推理加速:vLLM 中使用了哪些关键技术(如 PagedAttention、KV Cache)来优化推理?7.  并行框架:你对 DeepSpeed 这一加速推理与训练框架有多少了解?8.  BM25 算法:请讲解 BM25 算法的计算原理。9.  负载均衡:MoE 模型中专家(Expert)的负载不均衡问题该如何解决?10.  损失函数:能否通过修改损失函数的方式来缓解 MoE 的负载均衡问题?11.  数据分布:SFT 微调数据与预训练数据分布差异较大时,该如何处理?12. Scaling Law:SFT 微调的数据集是越大越好吗?是否存在 Scaling Law 现象?13. 训练稳定性:强化学习(RL)为何存在训练不稳定的问题?既然不稳定为何业界仍广泛使用?14. 三数之和:LeetCode 15. 三数之和。📳对于想求职算法岗的同学,如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。
查看14道真题和解析
点赞 评论 收藏
分享
评论
7
21
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务