03-03 08:30 门头沟学院机器学习

关注

AI infra推理方向日常实习面经总结

攒人品攒人品～～
1.实习拷打
2.推理相关知识点：
1.transformer架构（encoder-only、decoder-only、encoder-decoder各自优缺点，模型举例）
2.prefill/decode 结合roofline讲
3.nv基础（grid、block、thread、warp、l0cache/l1cache(shared memory)/l2cache/global memory、sram/hbm、tensor core、tma等）
4.vllm相关（pagedattention、连续批处理、v0/v1架构、chunked prefill、prifix caching等）
5.sglang相关（radixattention，sglang代码没怎么看，问的不多）
flashattention v1-v3、flashdecoding
6.量化（LLM.int8()、SmoothQuant、AWQ、GPTQ等、量化的好处）
7.投机解码（什么是投机解码、lookahead、n-gram、medusa、eagle）
8.并行（dp/tp/pp/ep各自是什么，在vllm中如何实现）
9.通信（reduce、gather、开销考虑）
10.主流模型架构（llama1-3的演变、qwen3的moe怎么做的、deepseek的mtp）
11.kvcache压缩手段（MHA、MQA、GQA、MLA）
12.pd分离
3.其他知识点
计网、操作系统、python八股都很基础
4.手撕
leetcode：反转链表、链表重排（lc143）、中序遍历二叉树的递归和非递归实现、最长连续序列（lc128）
triton/cuda：layer norm、大矩阵规约求和、online-softmax

全部评论

推荐最新楼层

昨天 16:14

辽宁工程技术大学 C++

双非本求简历修改意见

双非本软件工程专业。给HR打招呼不回，每次把简历发过去就没声音了。简历内容有点多吗？ 感觉可能也是项目不好的原因。 😭😭欢迎大家指出宝贵的意见，但是不要抨击俺，很脆弱。

简历中的项目经历要怎么写

点赞评论收藏

分享

03-03 19:31

门头沟学院 Java

《JAVA八股真解》三、线程与锁

#JAVA##JAVA面经##JAVA内推# 1. 线程的状态  Java中的线程生命周期由Thread类的getState()方法返回，共有六种状态：    状态 说明     NEW（新建） 线程刚被创建但尚未启动，处于初始状态。   RUNNABLE（运行中） 线程已启动并正在执行或准备执行任务。此状态包括“就绪”和“运行”两个阶段，取决于是否获取到CPU时间片。   BLOCKED（阻塞） 线程因等待锁而暂停执行，例如在synchronized代码块中无法获得锁时进入该状态。   WAITING（等待） 线程主动调用wait()、join()或LockSupport.park()等方法...

【八股真解】精炼最新高频...

点赞评论收藏

分享

03-03 13:35

门头沟学院机器学习

AI Infra面经攒人品版

继续来分享下之前的面经~欢迎友好讨论，信息共享1️⃣算法题：手撕内存池（要求支持类似new Foo[], delete []功能)，c++如何比较两个float是否相等，LRU，岛屿个数，二叉树的层序遍历，hamming weight，k-coverage intervals2️⃣torch手撕题: LoRA adapter3️⃣cuda手撕题：1- 支持torch broadcast的4D tensor的elementwise mul2- A: (1, 256),  B: (256, 128),  C: (128, 256) ，计算 (A * B) * C3- Embedding Sparse Feature Pooling：A是 100 万个离散 ID（0~999），B是 100 万个float，计算个长度为1000的float数组C，C[i] = \sum_{j s.t. A[j] = i} B[j]4️⃣ai infra或算法八股：1- llm的知识蒸馏放在预训练做是否合适2- Hopper TMA的优点，调用方式，是否需要经过L13- Flash Attention v2为什么外层对Q循环，Flash Decoding的combine kernel耗时占比大概是多少4- Mooncake kv-cache centric的PD分离5- Dit的推理框架设计思路和LLM的有什么异同6- 分析MLA decode的计算访存比，它和seqlen、batch size是否相关7- diffusion model的训练和推理步骤，推理num_inference_steps为40时，为什么训练的timesteps仍要设成10008- 介绍dLLM，如何看待它和AR的区别9- torch.repeat 和 torch.expand的区别10- torchrun的启动参数有哪些，如何在Linux上批量kill包含torchrun的进程

查看21道真题和解析

点赞评论收藏

分享

昨天 15:06

已编辑

评论赏金任务来啦🎉03.04

部门经理：以后人人都能写demo，包括产品面试官问“RAG各模块的优化策略有哪些”，怎么回答？直播 + AI Agent：这个岗位在做什么？AI应用研发（直播类）拆解面试问到chunk心慌慌？从企业开发者角度谈一谈具体的chunk策略选择春招方向迷茫？ai技术栈一篇就够！(附一图流总结)用 LangGraph 搭一套企业级 Coding Workflow，聊聊我的思路美团工作氛围如何？华为工作强度怎么样？华兴源创工作氛围如何？心动网络值得去吗？小天才工作强度怎么样？汇川联合动力工作强度怎么样？微派薪资福利如何？南理工非全人智研一下，投递南京大厂实习基本已读不回简历求拷打，春招想找大模型应用开发...

点赞评论收藏

分享

03-03 22:12

百度_高级研发工程师

Gemini犯病了

Gemini犯病了，直接给我干懵了  

点赞评论收藏

分享

评论

1

1

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 实习生至暗时刻 #

6954次浏览 128人参与

# AI求职记录 #

3177次浏览 138人参与

# 神州信息求职进展汇总 #

2260次浏览 47人参与

# 交出你的校招焚诀 #

2413次浏览 53人参与

# 你见过最离谱的招聘要求是什么？ #

260771次浏览 1758人参与

# 面试___岗的必刷题单 #

3952次浏览 68人参与

# 通信和硬件还有转码的必要吗 #

92900次浏览 603人参与

# 机械制造薪资爆料 #

1950884次浏览 11058人参与

# AI面试问题分享 #

6231次浏览 138人参与

# 哪些公司开暑期实习了？ #

7340次浏览 59人参与

# 三月的小目标 #

4202次浏览 83人参与

# 春招开局，你有保底offer吗？ #

11315次浏览 118人参与

# 实习生的生存小技巧 #

3460次浏览 78人参与

# 你经历过哪些AI幻觉？ #

2406次浏览 49人参与

# 小厂一定不能去吗？ #

12882次浏览 125人参与

# 找AI工作应该卷什么？ #

1602次浏览 37人参与

# 薪资爆料 #

387848次浏览 2159人参与

# 面试时间长是好事吗？ #

129742次浏览 742人参与

# 参加哪些竞赛对找工作有帮助？ #

31353次浏览 234人参与

# 你今年的保底offer是哪家 #

172211次浏览 722人参与

# 十二月请对我好一点 #

84778次浏览 688人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务