为什么Transformer用LayerNorm?
面试题简述
Transformer中用的是LayerNorm,而不是常见的BatchNorm,这是为什么?
面试官想听的
意识到不是BN不好,而是不适合Transformer的使用场景。
面试回答举例
Transformer中选择LayerNorm而不是BatchNorm,主要原因和序列建模方式以及训练场景有关。
详情请查看:http://xhslink.com/o/8yJohFzKSX6
由浅入深分析
1、BN 依赖 batch 统计量。
2、LN 只依赖特征维度。
3、Transformer 的 token 并行与 BN 设计目标维度不一致。
4、自回归推理场景下 BN 表现不稳定。
面试加分点
1、提出推理阶段 batch size = 1。
2、能从 NLP/序列建模特点解释,而不是泛讲归一化。
#校招##实习##面试##八股##大厂#2025推荐算法 文章被收录于专栏
带你复盘2025年推荐算法高频面试题,拆解推荐算法面试到底在考啥!