抖音大模型算法二面-校招面经
1.八股:XGBoost 如何计算特征重要性?Gini 系数在树模型中代表什么?它和信息增益的区别在哪?
2.八股:Decoder-only 模型在推理时,预测第 i+1 个 token 时,输入用的是第 i 个 token 的 one-hot 还是概率分布?为什么?
3.八股:KV Cache 的空间复杂度是多少?如何估算一个 7B 模型在 batch=1、seq_len=2048 下的显存占用?
4.八股:AdamW 和 Adam 的核心区别是什么?Adam 相比 SGD 引入了哪些优化机制?Adam 全称是什么?
5.项目:你们验证集的类别分布是否和线上一致?如何保证标注数据的高质量(比如通过交叉校验 or 专家审核)?
6.项目:在当前 RAG 架构下,如果引入 Few-shot Prompting,为什么能提升输出质量?和微调相比各自适用场景是什么?
7.项目:FAISS 是如何加速向量检索的?你用的是 IVF 还是 HNSW?索引构建时 nlist/nprobe 怎么调?
8.手撕:最长回文子串(LeetCode 5)
2.八股:Decoder-only 模型在推理时,预测第 i+1 个 token 时,输入用的是第 i 个 token 的 one-hot 还是概率分布?为什么?
3.八股:KV Cache 的空间复杂度是多少?如何估算一个 7B 模型在 batch=1、seq_len=2048 下的显存占用?
4.八股:AdamW 和 Adam 的核心区别是什么?Adam 相比 SGD 引入了哪些优化机制?Adam 全称是什么?
5.项目:你们验证集的类别分布是否和线上一致?如何保证标注数据的高质量(比如通过交叉校验 or 专家审核)?
6.项目:在当前 RAG 架构下,如果引入 Few-shot Prompting,为什么能提升输出质量?和微调相比各自适用场景是什么?
7.项目:FAISS 是如何加速向量检索的?你用的是 IVF 还是 HNSW?索引构建时 nlist/nprobe 怎么调?
8.手撕:最长回文子串(LeetCode 5)
全部评论
相关推荐
查看8道真题和解析