百度在线网络技术(北京)有限公司

文心一言 大模型算法实习生

2026.01.15,上午11:00,一面,线上,1h左右,只有自己开了摄像头,面试官没开

面试官首先介绍了自己团队的工作,是百度文心团队旗下专注于代码大模型的相关团队,核心工作涉及模型的预训练,也包含后续的后训练工作,同时会进行数据策略的优化,开展数据分析等相关工作。

面试时录音了,以下是语音转文字后的简要结果:

1.自我介绍

2.拷打简历

3.你现在在北邮这边读书时,导师这边没有什么项目吗?你这个实习是在研究生阶段去实习的是吗?

(实习是本科大四阶段刚结束的,目前处于研0阶段,今年九月读研一,导师这边做 AIGC 文本检测相关项目)

4.请讲一讲你那段实习中数据分析系统项目的背景以及当时做这个事情的原因。

(背景是客户有方便查询数据并可视化分析的需求,系统可上传 Excel、CSV 表格类数据文件,自动识别内容并进行平均分、查询等计算)

5.你在这个数据分析系统项目中承担了怎样的工作?

(所在公司是 100 多人的小公司,研发部门 20 多人,该项目由我全权负责,包括前端后端开发及技术选型。)

6.你选用千问的 coder 模型作为编码模型,为什么选这个模型?

(数据是含日期、月份、金融相关的 Excel 或 CSV 表格数据,需计算分析且有可视化需求,Qwen3-Coder 模型代码能力强,可让模型在内部编写matplotlib代码做可视化分析,所以选用Qwen3-Coder-30B 模型)

7.对于表格类数据,你会做一些前置处理吗?

(上传后用 Python 的 pandas 库转换成 dataframe 格式再进一步处理)

8.你对数据做了什么样的清洗?

(删除数据中存在空值的整行)

9.若 Excel 表格存在截断或有两个子表的情况,你会怎么处理?

(当时项目中表格只有一个 sheet,未考虑该情况;若存在多个表,可分别提取为单独的新表)

10.若表特别大,无法存放在一个 sheet 里,需存多个 sheet,且要从这些表中提取结构化数据并做分析结论,你会怎么做?

(用 Kettle 工具将csv等表格类型数据存放到关系型数据库,再通过写 SQL 语句完成相关查询)

11.表格之间的数据有关联,且数据量很大,如何高效地将数据给到Qwen3-Coder 模型?

(可借鉴 RAG 系统,将表格数据嵌入向量数据库,用户查询时仅将检索到的相关内容放入模型进行分析)

12.你提到 RAG,能详细说说整个流程吗?包括相关选型。

(先提取表头信息和一行行数据存入向量数据库;嵌入模型选Qwen3-Embedding 模型,LLM 沿用 Qwen3-Coder 模型;用户输入问题采用混合检索(关键词检索 + 语义检索),再将检索内容和用户问题传入模型分析得出结果)

13.表格每一列可能不是完整语义的数据,用语义编码模型编码出来的向量有意义吗?

(我认为有一定意义,若每行都是数值类型数据,可在嵌入时给每个数值前添加上表头信息一一对应,从语义理解角度效果会更好)

14.你了解现在一般会用什么样的向量库?

(数据量特别大时用 Milvus 向量数据库(支持亿万级存储);数据量较小时用 PostgreSQL(借助 PGvector 插件)或 ChromaDB、Faiss 等,按数据量级别选择)

15.若数据量只有几十万或者上百万,向量应该存在哪里?

(可用 PostgreSQL,利用其 PGvector 插件实现向量化存储,同时也能实现关系化存储,适合表格类数据)

16.你们一般会从哪些维度对这些数据做分析,提取什么样的结论?

(主要做金额分析,比如特定日期范围的销售总额、金额总额、平均值,以及某一物品的售卖情况等)

17.全由 Coder 模型做分析,有验证过效果的准确性吗?

(未进行系统评估,无评测数据集,具体精度无法预测,但可通过用户提问后,将模型结果与 Excel 的 Vlookup 公式计算结果对比,大概率是 OK 的)

18.若有测试集,你会如何评估模型分析结果的准确性(包括数值类问题和统计类问题)?

(数值类问题:提取结果数值与标准答案数值对比;统计类问题:用嵌入模型计算模型回答文本与标准答案文本的语义相似度判断)

19.你做过后训练的实践,能说说预训练跟后训练的区别吗?

(预训练是模型从头开始,用海量无标注文本训练,让模型理解语义、学习通用语言规律;后训练是针对某一领域,用该领域数据训练,让模型更好适配领域内问题)

20.你做过后训练的哪些阶段?

(尝试过 SFT、freeze、Lora 三种微调)

21.请详细讲讲后训练项目的背景以及目的。

(背景是实习时无微调经验,想尝试微调项目;选用参数量较小的 Qwen3-8B 模型,实习单位使用昇腾 910B3 服务器,部署 LLaMa Factory 进行相关微调,并用 evalscope 评测工具对微调后模型与原始模型进行评测)

21.你用于后训练的微调数据是什么样的?

(用的是 DeepSeek 蒸馏后的中文数据集,约 110K,为开源数据集)

22.对微调数据集有做过其他额外的处理吗?

(该项目中未做额外的数据处理)

23.请说说 SFT、freeze、Lora 这三种微调的区别。

(SFT 是全参数微调,速度最慢,理论效果最好,但本次实验训练三轮出现过拟合,效果不如 Lora;freeze 冻结大部分模型参数,仅微调顶层参数,因未调整注意力层参数,效果不如 Lora;Lora 引入两个矩阵,调整注意力层参数,可聚焦关键信息、抑制次要信息,对任务适配效果最好,本次实验中矩阵秩设为 8,缩放因子设为 16)

24.你会考虑在什么情况下设置 Lora 微调中矩阵的秩?

(秩越小,参数量越少,训练速度越快,适合任务紧急的情况(如设为 4);秩越大,微调效果理论上更好,适合追求极致精度的情况)

25.为什么 Lora 要将矩阵作用到 attention 层?

(attention 层是模型架构中最重要的层,可自动聚焦关键信息、忽略次要信息,还能捕捉文本数据的长距离依赖关系,对文本类任务影响最大)

26.从数学层面如何理解 Lora 微调中矩阵的秩?

(认为秩代表矩阵的维度大小,如 4×4 矩阵的秩是 4)注:这里感觉完全说错了

27.你知道 attention 机制是怎样的吗?

(先将输入转化为 token,分成 Q、K、V 三个矩阵,Q 乘 K 的转置除以根号下 DK,取 softmax 规一化为概率分布,再乘 V 矩阵;Q 是用户查询问题,K 是特征标识,V 是实际内容,计算后聚焦问题关键部分)

28.什么是 self-attention?

(是自注意力,让元素之间内部互相进行注意力机制计算,某一位置的信息可关注其他位置的信息)

29.现在的大模型一般采用怎样的注意力机制?

(Qwen系列模型用 GQA,DeepSeek 系列模型用 MLA,目的都是降低显存)

30.大模型采用 GQA、MLA 等注意力机制降低显存的原因是什么?

(避免训练和推理阶段显存溢出)

31.你知道 GQA、MHA 跟 MLA 的区别吗?

(MLA 在 MHA 基础上对 QKV 做低秩压缩,转换为 DV 潜在向量,仅缓存该向量维度,避免原始高维度显存压力;GQA 是分组查询注意力,将 Q 分组,每组共享一个 KV 矩阵,降低 KV 矩阵压力)

32.MLA 的缺点是什么?若要用 MLA,需要注意什么?

(MLA 若压缩维度过低,模型可能捕捉不到关键信息,效果不佳;需注意压缩后的向量维度大小)

33.用 LLaMa Factory 时,在训练阶段要降低显存,可以调整什么样的超参数?除了降低 batch size 还有别的方法吗?

(可降低 batch size,减少每次传入的数据量;还可降低注意力头数;也可使用 DeepSpeed ZeRO-3,将优化器、梯度和参数均匀切分到不同卡上)

34.你知道 DeepSpeed 的 ZeRO-1、ZeRO-2、ZeRO-3 的机制区别吗?

(ZeRO-1 仅拆分优化器到不同卡,梯度和参数每个卡保存完整;ZeRO-2 拆分优化器和梯度到不同卡;ZeRO-3 拆分优化器、梯度和参数到不同卡)

35.你做过数据配比或模型评估相关的工作吗?

(未做过数据配比;做过模型压测相关的模型评估,用 evalscope 评测工具)

36.cmmlu、logi_qa、musr 这三个数据集分别对应的是模型哪些方面的能力评估?

(cmmlu 是通用中文数据集,评估模型通用中文理解能力;logi_qa 是中文逻辑推理数据集;musr 是偏数值方面的推理数据集)注:这里musr数据集应该是超小型中文意图理解数据集(仅数百样本),聚焦短句意图识别,当时没有想起来。

37.若想要提升模型的推理能力,会考虑引入什么样的数据?从数据构造、模型训练、模型选型方面谈谈你的做法。

(模型选型选Qwen3普通模型,其自带深度思考能力;数据构造添加逻辑推理问题及示例;模型训练用 Lora 微调,追求极致精度可选 SFT,注意避免过拟合)

38.你会怎样构建提升模型逻辑推理能力的数据?

(构造逻辑类计算题、高数类问题及对应的标准解法作为数据样本)

39.除了构造相关数据,还有别的处理方式吗?构造完数据后直接拿去训练吗?

(构造完数据后,可通过 prompt 引导模型学习,比如用 few-shot 给模型提示,再进行训练)

40.除了 *** 这篇论文,本科时你还有做过其他算法方面的研究吗?

(没有)

41.请详细讲讲 *** 论文的研究内容。

42.这篇论文的数据来源是怎样的?

(数据是导师提供的开源数据集)

43.输入的图片是什么样的(包括分辨率等)?

(图片偏向正方形,有原始图片及对应标签,分辨率 resize 到 256×256)

44.数据量有多少?有做过其他处理吗?

(数据量 4000 多张,仅做了 resize 处理,无其他处理)

45.有考虑过数据增强的相关策略吗?

(当时未考虑,若要做可通过旋转、放大图像等方式处理)

46.文本类的数据增强大概有哪些方法?如何构造类似原始文本的文本?

(可在本地部署参数量较高的模型,将原始文本发送给模型,输入 prompt 让模型构造类似文本(自身对文本数据增强了解不多))

47.手撕:给定一个正整数 n,需要将其进行合理拆分,以获取拆分后所有数字的最大乘积(面试官先让说了思路,当时说了dp,但是状态转移方程没有写出来,后来改用暴力结果就暴了,凉凉了)

感受:当时是在超市里面面试的,找了个桌子椅子,前面感觉答的还行,手撕刚开始的时候来了一个大叔瞪着我,知道我可能在面试(当时在讲思路),结果还直接问我啥时候能结束啊,简直无语,手撕还没撕出来,估计寄了

全部评论

相关推荐

评论
4
1
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务