闻故而知新

今天 16:47 武汉大学 C++ 发布于湖北

关注

C++/CUDA/AI-infra面试经验总结

我自己在搞 AI Infra/HPC，有两个一直在维护的仓库：

一个是用 C++/CUDA 从零写的深度学习框架：OriginDL
另一个是工作中一点点积累下来的 AI Infra/HPC 知识地图：ai‑infra‑hpc

链接先丢这儿，感兴趣可以先 star 了再说：

https://github.com/jinbooooom/OriginDL

https://github.com/jinbooooom/ai-infra-hpc

如果你是刚开始找工作，或者准备投大模型 AI Infra/HPC 方向的岗位，可以把下面这份当成一个「复习清单」：面试高频会围着哪些点打转、我当时是怎么系统整理的、以及怎么用 OriginDL 这种项目给自己加分。

1. 芯片 & 算力：先搞清楚“算力”到底在算啥（01 chip）

这一块其实就是：别一上来就喊「算力不够」，至少知道它是怎么来的。

GPU / CPU 架构

面试很爱问的几个点：GPU 和 CPU 真正的区别在哪，SM、Warp、SIMD/SIMT 分别是什么，Warp 分化会带来什么性能坑。

算力和带宽

训练慢的时候，通常会卡在哪些硬件指标上？（FLOPS、显存带宽、PCIe 带宽等等）
MFU（Model FLOPS Utilization）大概是个什么概念，怎么判断「算力有没有用满」？

2. CUDA & 高性能计算：Infra 的基本盘（02 hpc / 05 cuda）

这块是真·逃不过去的基础，很多实习/校招都喜欢在这儿细抠。

CUDA 编程模型

Grid / Block / Thread 这三层为什么要分这么细？Block 为什么这么设计？
核函数修饰符大概干嘛用：__global__、__device__、__host__、__shared__、__constant__、__restrict__、__managed__……能说出典型使用场景就很好了。

执行模型 & GPU 架构

Block 为什么不能跨 SM 拆？Block 是怎么被丢到 SM 上跑的？
Warp 是怎么执行的？SIMD 和 SIMT 有什么本质区别？

内存层次 & 性能优化

GPU 上常见的几种内存：寄存器、local、shared、global、constant、texture……大概谁快谁慢、谁适合干啥。
「对齐 & 合并访问」（coalesced access）是什么鬼？如果访存不合并，会直接体感变慢。

流和并发

CUDA Stream 是干嘛用的，怎么用它把计算和数据拷贝「叠」在一起？
Hyper‑Q 解决的是哪一类「硬件很闲但任务排不上」的问题？

调试 & 性能分析

Nsight / ncu / nvprof 这些工具，通常会看的核心指标是什么？
拿到一个慢 kernel，大致排查顺序怎么走？（访存 → 占用 → 指令 → 并发……）
CUDA‑GDB 和普通 C++ 调试相比，多了哪些需要留意的地方？（线程维度、设备内存之类）

3. 多机多卡互联 & 拓扑：八卡机器到底是怎么“连”的（03 link / NVLink / NVSwitch / PCIe）

大模型训练离不开多卡互联和拓扑设计，这块越熟，你越能看懂大厂机房里的那些「线怎么接」。

NVLink / NVSwitch

NVLink 比 PCIe 强在哪？带宽和延迟大概是什么级别的差异？
NVSwitch 怎么把一堆 GPU 织成一个「全互联」？常见的 8 卡拓扑长什么样？

服务器拓扑 & 选型

常见的 8 卡服务器拓扑：串行、并行、偏 HPC 的几种配置，它们各自的 trade‑off。
如果让你挑一台机器用来训大模型，你会关注哪些点？（直连链路、CPU/GPU 亲和性、IB 网卡插在哪个 NUMA 节点上……）

NUMA & 亲和性

NUMA 是什么，为什么「绑核、绑卡」会对性能有那么大影响？
Linux 下怎么看设备的 NUMA 信息？亲和性乱配会导致哪些肉眼可见的抖动？

4. GPUDirect：数据在 GPU 和外设之间是怎么“飞”起来的（03 link / 05 gpuDirect）

这块帮你回答各种「zero‑copy」「RDMA 直通 GPU」之类的。

GPUDirect 几个形态

大概知道 GDS、P2P、GDR 各自干嘛；
GPUDirect P2P 和 GPUDirect RDMA 分别解决什么问题。

三个关键实现问题（高频）

这一块很多人都答不清，你能讲明白就很加分：

网卡是怎么直接读写 GPU 显存的？中间经历了什么映射和内存注册？
GPU 怎么访问通信资源，比如网卡寄存器、队列这些东西？
GPU 怎么提交通信请求、怎么和网卡同步？所谓「门铃机制」是怎么回事？

GPU 内存管理的一些细节

锁页内存（pinned memory）、零拷贝内存、UVA、UM 各自适合什么场景？
为什么 pinned memory 往往带宽更高？有没有可能把系统搞崩？

5. RDMA & InfiniBand：集群网络的主战场（03 link / 08 infiniband）

如果你去的是有自建集群的公司，这块基本都是家常便饭。

RDMA 基础 & 优势

RDMA 到底是什么？它绕开了传统 OS 内核的数据路径之后，有哪些立竿见影的好处？
SEND/RECV、READ/WRITE、带立即数这些操作，大概是用在什么场景？

一堆名词的关系捋顺

RDMA、InfiniBand、IBoE、RoCE、iWARP、IB 卡、IB 驱动……这堆名词之间的关系；
RoCE v1 和 v2，在协议上和性能上的主要差异。

资源模型 & 编程接口

QP / CQ / MR / MW / PD / AH 分别抽象的是什么资源？
为啥 RDMA 一定要做「内存注册」？注册 GPU 显存时会多出哪些限制？

性能调优 & 排障

小包延迟优先时，一般会用哪些手段？（批量 post、inline、不打太多信号等）
带宽优化时，会重点看 MTU、QP 数量、NUMA、PCIe 抖动什么的；
RDMA 延迟抖动，常见的是 CPU 隔离、中断绑定、亲和性这几块没配好。

环境搭建 & 常见坑

从 0 部署一套 IB/RDMA 环境，大概要装什么、配什么、用哪些工具自检？
PORT DOWN、端口起不来、连不上之类的典型报错，排查思路是什么？

6. 集合通信 & NCCL：大模型训练必经之路（05 ccl / 02 nccl）

只要你说「我们这边有多卡/多机训练」，面试官十有八九会问到 NCCL。

集合通信算法

AllReduce / AllGather / ReduceScatter / Broadcast 各自干嘛；
Ring / Tree / Bruck 这些实现大致的优缺点：谁延迟更好、谁带宽更好。

NCCL 大致怎么“想”的

它是如何利用机器的实际拓扑（NVLink、PCIe、IB）来建图的？
channel 这个概念是干嘛的，为什么要拆成一堆 channel？

NCCL 协议

Simple / LL / LL128 这三种协议分别适合哪种场景？对延迟/带宽会有什么影响？
LL128 为啥块更大？背后的 trade‑off 是什么？

实战向问题

多机多卡训练时，AllReduce 老是卡住/忽快忽慢，你会从哪几条线开始查？（拓扑、环境变量、NCCL_DEBUG 日志、IB 计数器、交换机……）
千卡规模的时候，有哪些踩坑经验可以提前说出来？

7. 训练 & 推理侧：从系统视角看大模型（06 trainAndInfer）

这里有点偏向「系统 + 算法的交界」，但对 Infra 岗也很重要。

参数量 & 显存

大致知道 1B 参数大概要吃多少显存；
训练 vs 推理，显存主要分别花在哪儿？为什么激活值占大头？

并行 & 分布式训练

数据并行（DP/DDP）、模型并行（张量并行 / 流水线并行）、专家并行（MoE），各自的核心想法和适用场景；
ZeRO 各个 stage 大概都在「减什么」：参数、梯度、优化器状态……

系统指标 & 瓶颈定位

MFU、GPU 利用率、吞吐（tokens/s）之间大概什么关系；
怎么根据监控判断「现在是算力打不满」还是「网络/IO 拖了后腿」？

推理优化

推理阶段常见的几板斧：KV cache、batching、各种并行、runtime 优化等等。

8. 工程实践类：简历/面试里最好能讲出来的东西

上面这些更偏「知识点」，但真到面试桌上，工程类题目往往更关键：

你有没有从 0 到 1 写过 CUDA kernel 并调过性能？大概路线是怎么分析、怎么改的？
有没有亲手处理过 RDMA / NCCL / NVLink 相关的 bug？举个例子，怎么发现问题，怎么一步步缩小范围的？
给你一台 8 卡机器，让你「尽量榨干」训练性能，你会从哪几件事做起？
日常分析性能瓶颈时，你会用哪些工具？比如 Nsight、nvidia-smi dmon、IB 计数器、perf/Ftrace/ebpf 之类。

本质上，面试官是想通过这些问题确认：你对那一整套知识，是不是只停留在“会背名词”，还是确实在工程里摔过跤。

9. OriginDL 能帮你什么（怎么把项目讲进面试）

最后稍微硬广一下我自己的小玩具框架 OriginDL，它其实非常适合拿来当「面试项目」讲。

OriginDL 是一个用 C++/CUDA 从零写的深度学习小框架，里面有：

自己写的底层矩阵运算和 GPU kernel；
在上面搭的自动求导和神经网络模块；
线性回归、MNIST、YOLOv5 推理等完整 demo。

有了这么一个项目，你在面试里就可以：

很自然地聊 CUDA 和 GPU

某个算子的 kernel 是怎么设计的；
Block/Grid 怎么配；
shared memory 和 global memory 是怎么配合用的。

从上到下讲一遍训练/推理链路

高层 API 调一次 forward，下面具体触发了哪些 kernel；
哪里用到了流、事件、异步拷贝；
哪些地方一不小心就会出性能/显存问题。

这种细节，是很难靠「临时抱佛脚」编出来的，面试官一般一听就知道你是真的做过。

如果你把 ai‑infra-hpc 这个仓库当「知识地图」，平时查问题/准备面试就翻它；再把 OriginDL 当实验田 + 面试项目，有空就往里加点小功能、做点小优化，基本上大模型 AI Infra/HPC 方向面试里常见的那些问题，你都能找到对应的落脚点。

最后再放一遍仓库地址，帮忙 star 一下：

https://github.com/jinbooooom/OriginDL

https://github.com/jinbooooom/ai-infra-hpc

#CUDA##C++开发##面试问题记录##ai-infra#

全部评论

推荐最新楼层

昨天 20:14

已编辑

哈尔滨理工大学 Java

京东后端-一面

问的几乎全是agent相关1. 自我介绍2. 实习经历3. 如何减少llm幻觉4. 模型效果如何评估5. mcp底层协议是什么6. skills的本质是什么7. 你觉得ai ide 设计的时候怎么定位，怎么防止类似数据库的幻读情况，如果让你来设计一个ai ide该怎么做 （acp协议和mcp协议，acp刚好前段时间了解过一些）8. 无算法9. 反问

查看7道真题和解析

点赞评论收藏

分享

今天 15:35

门头沟学院机器学习

淘天AI Agent一面面经-日常实习

面了一个小时 整体来说不难1、快速排序原理 时间复杂度 极端情况裂变2、极端情况怎么解决 用别的排序方法？3、场景题设计一个排序的方案4、hashmap冲突怎么解决 优缺点5、场景题6、多轮对话相关存储 记忆 解决方案 这个问了好多7、rag怎么设计的

查看6道真题和解析

点赞评论收藏

分享

02-07 05:25

陕西理工大学算法工程师

26校招宇树科技AI算法一面凉经

感觉对于具身智能的了解不足，有些问题回答得也不好，遗憾离场1.训练的数据是怎么构建的2.模型的参数规模是多少3.模型参数规模，例如100b、7b，主要差异体现在哪里4.是否熟悉moe架构5.介绍transformer架构6.SFT过程中loss是怎么计算的7.Token向量化具体怎么计算8.是否观察过训练时的loss变化9.Grpo的group大小怎么影响算法效果10.对GRPO算法本身有什么了解11.对clip是否有了解12.对于VLM模型的架构是否熟悉13.视觉编码器是否了解14.文生图模型的架构是否了解15.是否了解多卡分布式训练的相关逻辑，遇到过什么问题，怎么解决的16.对于强化学习有什么了解，如PPO、TD317.是否了解VLA、具身智能这些

查看17道真题和解析

点赞评论收藏

分享

今天 12:20

门头沟学院 Java

快手Agent应用实习二面好难啊

面了65min左右，发下面经攒攒人品1.实习介绍2.深挖上一段实习大模型项目3.数据集构建4.为何要自己去训练一个模型而不是直接使用现有大模型去做5.为何不使用其他轻量化的方法6.qlora介绍7.如何处理过拟合欠拟合8.数据不平衡怎么处理9.思考题：二十瓶药中有一瓶重一些，怎么通过一次称重找出重的那瓶10.coding：将升序数组轮转后，找到此数组内有无target，有则输出索引无则输出-111.反问

查看10道真题和解析

点赞评论收藏

分享

02-10 11:42

已编辑

门头沟学院推荐算法

聊聊Agent实习

总结一下最近面试的 agent 实习面试，包括深信服，anker，minimax，万物云，吉比特整体感觉是：不再考 “你会不会用大模型”，而是考 “你能不能把 Agent 系统跑在真实工程里”。下面把我遇到的高频 Agent 面试题，按模块系统性总结一下，供后来者参考。一、Agent 在学术 / 工程上是如何拆分的？高频问题：Agent 在学术上由哪些部分组成？和普通 LLM 应用有什么区别？二、上下文工程 vs Prompt 工程（几乎必考）高频问题：上下文工程和提示词工程有什么区别？三、如何减少幻觉（Hallucination）高频问题：Agent 如何减少幻觉？在工业场景下怎么做？四、多 Agent / 多异步任务下，如何防止上下文污染？五、RAG 流程（几乎场场都有）六、MCP vs Tool / Function Calling七、工程基础Redis 为什么单线程？HTTPS 握手流程？经典算法（课程表 / 拓扑排序）SFT/PPO/DPO/GRPO 的区别，微调一个大模型的流程是什么样的？

查看10道真题和解析

点赞评论收藏

分享

评论

点赞

收藏

招聘动态

27届简历点评

27届寒假/转正实习汇总

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 春招什么时候投？ #

6965次浏览 108人参与

# 牛友的春节生活 #

3535次浏览 98人参与

# 春节前，你还在投简历吗？ #

9675次浏览 128人参与

# 从夯到拉，锐评职场mentor #

2514次浏览 50人参与

# 牛客AI体验站 #

13956次浏览 260人参与

# 实习到现在，你最困惑的一个问题 #

2747次浏览 85人参与

# 春节提前走，你用什么理由请假？ #

6292次浏览 158人参与

# 备战春招/暑实，现在应该做什么？ #

2482次浏览 90人参与

# 聊聊Agent开发 #

18500次浏览 462人参与

# 距离春招还有一个月，你现在是什么开局？ #

3914次浏览 89人参与

# 暑期实习什么时候投？ #

4710次浏览 119人参与

# 推荐一个值得做的AI项目 #

5023次浏览 147人参与

# 听劝，这个简历怎么改 #

380607次浏览 1826人参与

# 机械人的秋招小目标 #

28334次浏览 239人参与

# 腾讯工作体验 #

567966次浏览 3712人参与

# 我的AI电子员工 #

27567次浏览 184人参与

# 参加完秋招的机械人，还参加春招吗？ #

108166次浏览 704人参与

# 实习的内耗时刻 #

221458次浏览 1643人参与

# bilibili求职进展汇总 #

180860次浏览 1074人参与

# 字节跳动工作体验 #

705055次浏览 6303人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务