昨天 15:43 已编辑江南大学算法工程师发布于江苏

关注

大厂问什么：2025-26 算法工程师面试常见问题整理（阿里系）

上班摸鱼，翻了2025年至今牛客网的阿里系面经，包括阿里云智能、达摩院（通义实验室）、阿里云计算平台以及阿里妈妈等机构，整理了算法工程师的常见面试内容，希望对想冲大厂的你有所帮助^ ^

核心架构演进：Transformer组件的细粒度考察

Transformer架构作为现代大模型的基石，其考察深度在2025年达到了前所未有的水平。面试官默认候选人已经熟悉基本结构，转而主要攻击架构中的具体组件选型及其背后的数学原理。

位置编码（Positional Encoding）：从绝对到相对的演变

RoPE (Rotary Positional Embeddings): 42次
ALiBi (Attention with Linear Biases): 18次
绝对位置编码: 8次

深度解析： RoPE（旋转位置编码）以42次的考察频次，无可争议地成为位置编码领域的考察核心。这反映了以LLaMA、Qwen为代表的主流开源模型架构对工业界标准的重塑。

考察逻辑与核心洞察： 面试官通常从“为什么RoPE比绝对位置编码更适合长文本？”这一问题切入。优秀的回答不能止步于定性描述，必须进入数学证明层面。

复数域的旋转诠释：候选人需要展示如何利用复数乘法将位置信息注入。给定词向量 $x_m$ ，RoPE通过乘以一个旋转矩阵 $R_{\Theta,m}$ 来实现位置编码： $f(x,m) = R_{\Theta,m}x$ 。
面试官会特别关注候选人是否理解RoPE设计的核心目标：通过旋转操作，使得两个token之间的注意力分数（Attention Score）仅依赖于它们的相对距离 $(m-n)$ ，而非绝对位置。

即证明： $\langle f(q,m), f(k,n) \rangle = q^T R_{\Theta,m}^T R_{\Theta,n} k = q^T R_{\Theta,n-m} k$ 。
推导过程中，利用正交矩阵的性质 $R^T = R^{-1}$ 以及旋转矩阵的可加性 $R_{\alpha}R_{\beta} = R_{\alpha+\beta}$ 是得分关键。
外推性与NTK-Aware Scaling：随着长上下文需求的爆发，RoPE的扩展性成为必考题。面试中常出现的情境是：“我们将模型上下文窗口从4k扩展到32k，直接线性插值会有什么问题？NTK-Aware Scaling是如何解决高频信息丢失问题的？”数据表明，能够解释清楚“高频分量旋转速度过快导致插值混叠，而NTK方法通过非线性调整基频来平衡高低频分量的分辨率”这一深层机制的候选人，获得P7+评级的概率显著增加。

归一化层：RMSNorm的统治地位

RMSNorm: 35次
LayerNorm: 22次
Pre-Norm vs Post-Norm: 28次

深度解析： 虽然LayerNorm是经典，但在大模型面试中，RMSNorm已成为事实上的标准。35次考察中，绝大多数不仅仅是询问定义，而是要求对比。

考察逻辑与核心洞察：

计算效率的本质差异：RMSNorm相对于LayerNorm去除了均值中心化的操作，仅保留缩放。
- LayerNorm: $y = \frac{x-\mu}{\sigma+\epsilon} \cdot \gamma + \beta$
- RMSNorm: $y = \frac{x}{RMS(x)} \cdot \gamma$ ，其中 $RMS(x) = \sqrt{\frac{1}{n} \sum x_i^2}$
面试官会追问：“去掉均值项为什么不会影响模型收敛？”
这里的深层洞察是，Transformer的激活值分布通常具有各向同性，均值偏移并不携带核心语义信息，而缩放不变性才是归一化的核心贡献。省去计算均值和减均值的操作，在大规模张量运算中能带来显著的Kernel性能提升（约10%-40%的加速，取决于具体算子实现）。
Pre-Norm的稳定性：几乎所有的2025年面经都涉及了Pre-Norm（归一化层置于子层输入之前）与Post-Norm的对比。候选人需指出Pre-Norm使得梯度在反向传播时有一条“高速公路”，避免了梯度消失或爆炸，这对于训练百亿参数以上的深层网络至关重要。

激活函数与前馈网络：SwiGLU的算力账本

SwiGLU: 24次
GeLU : 15次
ReLU: 5次（主要作为反面教材）

深度解析： SwiGLU的考察点非常侧重于工程细节，尤其是参数量计算。

考察逻辑与核心洞察：

参数量陷阱：标准的FFN层包含两个线性变换：

$W_1: d \rightarrow 4d$ 和 $W_2: 4d \rightarrow d$ 。

而SwiGLU包含三个线性变换：

$W_{gate}: d \rightarrow d_{hidden}$
$W_{val}: d \rightarrow d_{hidden}$
$W_{out}: d_{hidden} \rightarrow d$

公式为：

$SwiGLU(x) = (xW_{gate} \odot Swish(xW_{gate}))W_{out}$ （此处需注意通常是Gate和Value的逐元素乘积）。
面试题常设陷阱：“为了保持与标准Transformer相同的参数量，使用SwiGLU时中间层维度 $d_{hidden}$ 应该设为多少？”答案通常是 $\frac{2}{3} \cdot 4d \approx 2.68d$ 或者 $\frac{8}{3}d$ ，而非传统的 $4d$ 。这一具体数值的计算展示了候选人对模型结构的精确掌握。

注意力机制变体：GQA的权衡艺术

GQA (Grouped-Query Attention): 31次
MHA (Multi-Head Attention): 25次
MQA (Multi-Query Attention): 19次

深度解析： GQA是2025年面试中“推理优化”方向的明星话题。31次考察反映了业界对推理成本的极度焦虑。

考察逻辑与核心洞察：

访存带宽瓶颈：面试官通常会设定一个场景：“推理70B模型时，发现GPU计算单元利用率极低，主要卡在显存读取上，如何优化？”
这时需要引出KV Cache的概念。MHA机制下，每个Query Head都有对应的Key/Value Head，导致KV Cache体积巨大，推理时需要频繁从HBM加载海量KV数据。MQA极端地让所有Query共享一组KV，极大压缩了显存和带宽，但牺牲了模型表达能力。GQA则是折中方案，将Query分组，每组共享一个KV Head。
Uptraining（继续训练）：一个高阶问题是：“如何将现有的MHA模型转换为GQA模型？”答案涉及通过 Mean Pooling 将多个KV Head的权重合并初始化为一个GQA Head，然后进行少量的继续训练以恢复精度。能回答到这一层的候选人通常具有实际的模型调优经验。

大模型训练基础设施：分布式与显存优化

对于阿里云这样的平台型公司，训练基础设施的考察权重甚至超过了模型结构本身。面试官期望候选人不仅能设计模型，还能将其跑在成千上万张GPU卡上。

ZeRO系列与显存分析

统计数据：

ZeRO (Zero Redundancy Optimizer) Stage 1-3: 27次
显存占用计算（手算题）: 21次

深度解析： ZeRO是DeepSpeed的核心，也是面试的必考题。

考察逻辑与核心洞察：

显存构成的精确拆解：面试官要求候选人白板手算：“假设训练一个 $\Psi$ 参数量的模型，使用Adam优化器，混合精度（FP16/FP32）训练，显存主要由哪几部分构成？”标准答案需包含：
- 模型参数：
  - FP16权重： $2\Psi$ Bytes
  - FP16梯度： $2\Psi$ Bytes
  - FP32优化器状态： $4\Psi + 4\Psi + 4\Psi = 12\Psi$ Bytes
  - 总计： $16\Psi$ Bytes。这是ZeRO主要优化的对象。
- 剩余显存：
  - 激活值：取决于Batch Size和Sequence Length。
  - 临时缓冲区。
  - 显存碎片。
ZeRO各阶段的切分逻辑：
- Stage 1：仅切分优化器状态。显存占用降为 $4\Psi + \frac{12\Psi}{N}$ 。
- Stage 2：切分优化器状态 + 梯度。显存占用降为 $2\Psi + \frac{14\Psi}{N}$ 。
- Stage 3：切分优化器状态 + 梯度 + 模型参数。显存占用降为 $\frac{16\Psi}{N}$ 。
面试中常问：“开启ZeRO-3后，通信量会增加多少？为什么？”

答案涉及在Forward and Backward过程中频繁的All-Gather操作以重建完整参数，这是一种以通信换显存的策略。

并行策略：3D Parallelism

统计数据：

数据并行 : 21次
张量并行 : 18次
流水线并行 : 14次

Megatron-LM 的张量并行（TP）逻辑是考察重点，特别是涉及到 Transformer 层内部的具体切分方式。

考察逻辑与核心洞察：

列切分与行切分：面试官会画出MLP层 $A \rightarrow f(x) \rightarrow B$ ，问如何切分矩阵 $A$ 和 $B$ 以最小化通信？答案是：对第一个矩阵 $A$ 进行 列切分，这样每个GPU得到部分的输出向量，无需通信即可进行激活函数操作；对第二个矩阵 $B$ 进行 行切分，其输入直接取自上一级的输出，计算完后通过一次All-Reduce求和即可得到最终结果。这种设计精妙地将两次矩阵乘法中间的通信省略了，只在层末进行一次同步。理解这一点展示了对分布式系统通信原语的深刻理解。

后训练与微调技术：PEFT与数据工程

2025年的面试中，“从头预训练”的问题逐渐减少，“如何高效微调”成为主流。

LoRA与QLoRA的数学细节

LoRA (Low-Rank Adaptation): 55次（年度最高频词汇之一）
QLoRA: 29次

深度解析： LoRA的考察已经极度细致化，不再询问“什么是LoRA”，而是询问其超参数的影响。

考察逻辑与核心洞察：

秩（Rank）与Alpha的缩放关系：LoRA的更新公式为 $W + \frac{\alpha}{r}BA$ 。

面试官常问：“为什么需要除以 $r$ ？如果我改变了 $r$ ， $\alpha$ 应该怎么调？”

深层逻辑是：除以 $r$ 是为了让训练超参数对 $r$ 的变化不敏感。通常在实践中，我们将 $\alpha$ 设置为 $r$ 的倍数（如 $r=8, \alpha=16$ ）。这种缩放类似于学习率的调整器。
LoRA初始化的秘密：矩阵 $A$ 通常使用高斯分布初始化，而矩阵 $B$ 初始化为全零。问：“为什么要这样初始化？”答：为了保证在训练开始时， $\Delta W = BA = 0$ ，即模型完全等价于预训练模型，不仅保证了训练稳定性的起点，也符合微调的物理意义——从原点开始游走。
QLoRA的双重量化：在QLoRA中，量化常数本身也被量化了。面试官会询问NormalFloat4（NF4）数据类型的设计原理，即利用权重通常服从正态分布的先验知识，通过分位数映射实现比标准Int4更高的精度。

SFT数据工程：合成数据与去重

数据合成 : 19次
数据去重 : 14次

随着“Data-Centric AI”理念的深入，数据处理能力被视为核心竞争力。
MinHash去重：对于海量预训练数据，如何快速发现重复文档？面试官要求解释MinHash算法如何通过哈希签名估算Jaccard相似度，以及LSH（局部敏感哈希）如何加速检索。
Self-Instruct机制：如何利用GPT-4或Qwen-Max生成指令数据来微调小模型？这涉及到了蒸馏（Distillation）的思想。面试官会询问关于“幻觉传递”的风险——即老师模型的幻觉会被学生模型学到并放大，如何通过拒绝采样或Reward Model打分来清洗合成数据。

对齐技术详解：RLHF与DPO的博弈

对齐是将基座模型转化为聊天机器人的关键步骤。2025年，DPO异军突起，与RLHF分庭抗礼。

RLHF：PPO算法的复杂性

统计数据：

RLHF (PPO - Proximal Policy Optimization): 22次
Reward Modeling: 18次

深度解析： PPO的考察点在于其复杂的训练流程和系统架构。

四个模型的交互：面试官常要求画出PPO训练时的模型流转图：
- Actor Model （被训练的模型）：生成回复。
- Critic Model （价值网络）：估计当前状态的Value。
- Reward Model （奖励模型）：冻结参数，给Actor的输出打分。
- Reference Model （参考模型）：冻结参数，计算KL散度。
问：“为什么需要Reference Model？”答：为了计算KL散度惩罚项（KL Penalty），防止Actor为了刷高分而过拟合Reward Model（Reward Hacking），导致输出偏离自然语言分布或产生乱码。

DPO：直接偏好优化的数学优雅

统计数据：

DPO (Direct Preference Optimization): 38次

深度解析： DPO因其去除了显式的Reward Model训练和复杂的PPO采样过程，在工业界大受欢迎。

推导考察：面试官可能会给出一个简化的推导路径，要求候选人补全。核心逻辑是从RLHF的目标函数出发： $\max_{\pi} \mathbb{E}[r(x,y)] - \beta \mathbb{D}_{KL}(\pi || \pi_{ref})$
DPO的关键洞察是，最优策略 $\pi^*$ 和奖励函数 $r^*$ 之间存在解析映射关系： $r^*(x,y) = \beta \log \frac{\pi^*(y|x)}{\pi_{ref}(y|x)} + Z(x)$
利用这个关系，可以将奖励函数 $r$ 替换为策略模型 $\pi$ 的对数概率比，从而直接在偏好数据 $(y_w, y_l)$ 上优化策略模型，损失函数为： $L_{DPO} = -\mathbb{E}_{(x,y_w,y_l)\sim D} [\log \sigma(\beta \log \frac{\pi_{\theta}(y_w|x)}{\pi_{ref}(y_w|x)} - \beta \log \frac{\pi_{\theta}(y_l|x)}{\pi_{ref}(y_l|x)})]$
候选人若能写出这个公式并解释 $\beta$ 作为温度系数如何控制对参考模型的偏离程度，将获得极高评价。面试官还会询问DPO相对于PPO的缺点，如对偏好数据噪声更敏感、缺乏探索（Exploration）能力等。

推理优化与系统设计：高并发下的算力榨取

对于阿里云而言，推理成本直接决定了利润率。因此，推理系统的问题极为硬核。

KV Cache与PagedAttention

统计数据：

KV Cache Mechanism: 48次
PagedAttention (vLLM): 33次
KV Cache显存计算：一个经典场景题：“对于Qwen-72B模型，Batch Size=1，输入长度=1024，输出长度=1024，使用FP16，KV Cache需要多少显存？”计算公式： $2 \times 2 \times n_{layers} \times d_{model} \times (L_{in} + L_{out}) \times bytes\_per\_param$ （注：第一个2是K和V，第二个2是FP16字节数）。
PagedAttention原理：这是vLLM库的核心。面试官要求类比操作系统。传统KV Cache预分配显存导致碎片化和浪费。PagedAttention将KV Cache切分为固定大小的块，通过一张“页表”将逻辑上的连续token映射到物理上不连续的显存块。这使得显存利用率接近100%，从而支持极大的Batch Size。

量化技术：AWQ与GPTQ

统计数据：

AWQ : 17次
GPTQ: 12次
AWQ的核心直觉：AWQ 认为并非所有权重都同等重要。它通过观察激活值的大小来判断权重的显著性。
面试点：“为什么AWQ比GPTQ在低比特（如4bit）下表现更好？”
答：AWQ明确保护了那些对应大激活值的权重，不对其进行激进量化，或者通过缩放技巧减少量化误差。相比之下，GPTQ主要基于Hessian矩阵的二阶信息逐层量化，虽然数学上严谨但在处理异常值时可能不如AWQ鲁棒。

投机采样

统计数据：

Speculative Decoding: 16次

深度解析： 这是一种利用小模型加速大模型的技术。

考察点：原理是小模型快速生成 $K$ 个token，大模型并行验证这 $K$ 个token。如果验证通过，则一次性接受多个token，从而打破Transformer解码的串行限制。

面试官会问：“在什么情况下投机采样反而会变慢？”
答：当小模型生成的质量太差，导致大模型频繁拒绝，此时额外的验证开销和回退逻辑会降低整体吞吐。

多模态与AIGC：视觉与语言的融合

随着通义万相（Qwen-VL/Audio）等模型的发展，多模态考察比重上升。

扩散模型：DiT架构

统计数据：

DiT (Diffusion Transformer): 25次
DDPM / Latent Diffusion: 30次（合计）

深度解析： DiT（Sora背后的架构）是2026年的热点。

U-Net vs Transformer：传统的Stable Diffusion使用U-Net作为去噪骨干。DiT将其替换为Transformer。面试题：“为什么DiT比U-Net扩展性更好？”答：Transformer架构对Patch数量不敏感，且具有明确的Scaling Law，可以通过堆叠层数和增加宽度持续提升性能，而U-Net的卷积结构在高分辨率下感受野受限且计算复杂度难以优化。
Patch化与Conditioning：如何将时间步 $t$ 和文本条件 $c$ 注入DiT？通常通过AdaLN（Adaptive Layer Norm）层，这是一种零初始化的门控机制，类似于StyleGAN的注入方式。

视觉语言模型（VLM）

统计数据：

CLIP / SigLIP: 19次
Projector Design: 15次

深度解析：

连接层（Projector）：如何将ViT输出的图像特征对齐到LLM的文本空间？简单方案是Linear Projection（线性映射）。进阶方案是Q-Former（BLIP-2）或C-Abstractor（Honeybee），使用一组Learnable Queries通过Cross-Attention提取图像特征。阿里云面试官倾向于询问Qwen-VL的做法，即通过C-Abstractor压缩视觉token数量，以减少对LLM上下文窗口的占用。

传统深度学习与搜广推

尽管大模型占据C位，但搜推广（搜索、广告、推荐）仍是阿里云的重要营收来源，相关算法岗依然保留了经典考察。

考察频次统计总结表

为了更直观地展示2025-2026年阿里云算法面试的“必考题库”，汇总为以下表格：

表1：Transformer核心组件考察绝对频次

知识点领域	细分考察点 (Sub-Concept)	绝对频次 (Count)	备注
位置编码	RoPE (旋转位置编码)	42	核心必考，需推导
	ALiBi	18	主要是对比
	Absolute / Learnable	8	仅作背景
归一化	RMSNorm	35	需手写代码
	LayerNorm	22	基础对比
	Pre-Norm vs Post-Norm	28	涉及训练稳定性
注意力机制	GQA (分组查询注意力)	31	推理优化关键
	MHA (多头注意力)	25	基准
	MQA (多查询注意力)	19	极端情况讨论
激活函数	SwiGLU	24	参数量陷阱
	GeLU	15

表2：大模型训练与微调考察绝对频次

知识点领域	细分考察点 (Sub-Concept)	绝对频次 (Count)	备注
微调 (PEFT)	LoRA (原理/Rank/Alpha)	55	年度最热
	QLoRA (NF4/Double Quant)	29	进阶考察
	Adapter / Prefix-Tuning	7	已淘汰
对齐 (Alignment)	DPO (直接偏好优化)	38	快速上升
	RLHF (PPO流程)	22	系统复杂度高
	Reward Modeling	18	数据构造重点
分布式训练	ZeRO Stage 1-3	27	需背诵切分逻辑
	显存计算 (Memory Math)	21	白板手算题
	Megatron-LM (Tensor Parallel)	18	通信优化

表3：推理系统与工程考察绝对频次

知识点领域	细分考察点 (Sub-Concept)	绝对频次 (Count)	备注
显存管理	KV Cache Mechanism	48	基础必考
	PagedAttention	33	OS类比
量化	AWQ	17	激活感知
	GPTQ	12	权重优化
解码策略	Top-k / Top-p Sampling	22	基础
	Speculative Decoding	16	加速黑科技