bug杀手锏 - 个人主页动态

今天 12:35

1. 目前主流大语言模型在架构设计上有哪些异同点？2. 简述大语言模型中的Prompt Engineering技巧，如何设计有效的提示词提升模型输出质量？3. 什么是LoRA？它在大语言模型微调中的优势和原理是什么？4. 大语言模型在推理时出现“幻觉”现象的原因是什么？有哪些缓解方法？5. 对比Zero-Shot、Few-Shot和In-Context Learning，它们在大语言模型中的应用场景和局限性分别是什么？6. 介绍一下大语言模型中的注意力机制，多头相比单头注意力有何优势？7.过往项目（项目/论文细节追问）8. 如何评估大语言模型的性能？常见的评测指标和基准数据集有哪些？9. 什么是大语言模型的“涌现能力”？目前对该现象的研究有哪些发现？

查看9道真题和解析

0 点赞评论收藏

今天 02:15

昆明理工大学算法工程师

视源集团大模型算法校招面经

1. 聊一聊CLIP的检索这块，这个任务的输入这块，这个任务的输入输出是什么？以及改进是什么？2. 我们为什么还要要求CLIP的相似度矩阵还要关于正对角线对称？3. CLIP预训练是怎么做的？4. CLIP预训练的双塔编码器是如何初始化的？5. ViT的主要架构是什么样子的？encoder还是decoder？6. 一张图片如何被送入ViT该如何处理？7. 输入19201080图片，patch size是1414，ViT的token数量应该是多少？8. 输入224224图片，1414 patch，ViT的token数量该怎么计算？9. CLIP的文本编码器架构是什么？10. 询问实习编程题：使用Python的列表，实现一个栈（不使用deque）

查看11道真题和解析

0 点赞评论收藏

今天 00:15

昆明理工大学算法工程师

字节大模型算法实习一面 75min

1.自我介绍2.LoRA 的 rank, alpha, dropout 参数及设置原因3.Reward Model 的训练（公式解释）4.Log Likelihood Loss 公式5.最长公共子序列（LCSS）优化6.反问环节

查看5道真题和解析

0 点赞评论收藏

昨天 13:40

昆明理工大学算法工程师

百度算法实习一面

1- 拷打后训练项目2- 熟悉Verl框架吗？里面数据处理和训练流程逻辑，比如roll-out的生成、奖励函数打分、优势和loss的计算有了解吗3- GRPO的优势是什么？4- 拷打实习（agent相关）5- 有没有研究过大模型上下文的工作，比如推理加速或长上下文扩展？6- KV Cache的改进？7- Coding：最长公共子序列

查看5道真题和解析

0 点赞评论收藏

01-31 10:20

昆明理工大学算法工程师

百度智能体大模型一面凉经

1.实习中用到的模型的结构2.有做什么部署优化吗3.为什么不用微调4.为什么用精排5.文案生成为什么不总BLEU指标6.精排输出的是什么7.linux 替换第三列的值语法：awk ’{$3=”NEW“; print}‘ OFS=’\t‘ data.txt > out.txt8.sql去重：distinct , group by9.Lora sft dpo10.self attention 计算 优缺点11.为什么用jieba12.bm25 bge 双塔区别13.code：接雨水

0 点赞评论收藏

01-31 04:15

昆明理工大学算法工程师

高德AI Agent算法一面面经 1h

1、论文整体架构和目标。为什么要做这个工作(动机)，这个工作解决了什么问题?架构为什么这么设计?现在回过头看，有没有其他更好的方案?2 、数据质量保障。如何判断收集到的数据数据是否可用?质量如何保证。异常数据如何处理?3、 数据筛选策略。是否是自动化的流程，是否有人工审核，比例占多少，如何平衡数据多样性和质量反问环节1、工作时间(9点30到6点，偶尔加班到7，8点)2 、团队业务主要做Al Agent能力评估，模拟真实用户的GUI操作行为来评测AI能力

查看3道真题和解析

0 点赞评论收藏

01-30 16:10

昆明理工大学算法工程师

快手LLM大模型实习一面 80min

1、实习介绍2、reward函数是如何设计的？数据集的配比是怎样的？3、inductive learning和transductive learning有什么区别？4、Viking是什么？相关业务背景是什么？5、冷启动时，不同专家模型特征输入为什么不同？6.编码树如何构建？为什么使用高斯分布？7、id特征为什么学习效果不好？8、给你整数 delay 和 forget，以及整数 n。每个人在发现秘密后的 delay 天开始，每天可以分享给一个新的人。在发现秘密 forget 天后会忘记秘密，忘记后不再分享。求第 n 天结束时知道秘密的人数。9、Loss乘10和学习率乘10之间有什么区别

查看9道真题和解析

0 点赞评论收藏

01-30 07:40

昆明理工大学算法工程师

快手大模型算法面经

1. Transformer现有架构在什么情况下，哪个模块会导致用户意图判别不准？2. Transformer中的Q、K、V分别来自哪里？代表什么？3. MOE（混合专家模型）和传统Transformer的核心区别是什么？4. GRPO 和 SFT 的数据量分别是多少？5. 项目中数据输入是整段视频，还是拆分使用OCR、ASR分别处理？6. 力扣岛屿题第10题中，DFS/BFS里计数函数的两个循环分别起到什么作用？7.上下文场景中，单Agent和多Agent各自的优劣势是什么？8. 什么情况下选择单Agent，什么情况下选择多Agent？9.向量向量化后，距离计算的方法有哪些？

查看9道真题和解析

0 点赞评论收藏

01-29 23:25

昆明理工大学算法工程师

字节大模型算法校招一面

1.拷打论文2.拷打竞赛3.对强化学习训练有什么了解吗？4.你在做一个任务的时候，你怎么判断他在训练的时候要不要先经过5.SFT呢？然后再进行RL呢？6.如果是一个开放任务，比如对话任务。没有固定答案，该怎么选RL训练策略呢7.做RL时的pass@1和pass@k，你觉得这两个指标存在什么关系8.讲一讲GRPO的原理，它的loss怎么写的9.GRPO的优劣/后续改进10.base地倾向？11.手撕：编辑距离

查看8道真题和解析

0 点赞评论收藏

01-29 11:30

昆明理工大学算法工程师

字节大模型Agent算法二面

项目深挖 1.训练时显存占用高的瓶颈在哪?做了哪些显存优化?2.如果重新做一次，你会在哪些环节提前做ablation?3.在多Agent系统中，如何保证异步任务执行的稳定性和结果一致性?4.如果Agent推理API需要低延迟响应，你会从哪些方面做系统级优化?5.你做Prompt优化时，是如何判断优化后的Prompt在Agent推理链路中性能提升的?用什么指标来衡量?6.你提到用DeepSpeed做SFT训练，请讲一下DeepSpeedZeROStage1-3的区别，以及什么时候用FSDP会更好?7.在你的问答Agent项目中，数据集构造的自动化流程是怎么实现的?8.你是如何利用多Agent协同来提高推理正确率的?调度策略如何实现?9.介绍一下RAG的整体流程。在Agent落地场景中，RAG会遇到哪些延迟和正确率问题?你怎么优化召回链路?八股1.AdamW与Adam在权重衰减上的实现差异?2.梯度累积等价于batch扩大的严格条件是什么?3.PPO的核心目标函数是什么?每个符号的物理意义?4.相比PPO,GRPO的"Group"体现在哪一步?5.KL散度在RLHF阶段出现的位置、作用以及过大/过小分别会导致什么现象?6.Multi-Agent场景里，Reflection模块与Memory模块的输入输出各自是什么?它们如何解耦又能互相增强?

0 点赞评论收藏

01-28 23:50

昆明理工大学算法工程师

美团大模型日常实习二面 1h

1.MHA（多头注意力）机制详细讲一下，Q/K/V 怎么算？2.Qwen、ChatGLM、Llama 三者架构核心区别是什么？3.ChatGLM 为什么用 GLM-style attention？优势在哪？ 这个问题啥意思4.DeepSeek 的模型结构有什么特点？MoE 还是 dense？5.RoPE（旋转位置编码）原理是什么？为什么比绝对位置好？6.PPO 算法公式写一下？能不能不用 Value Model？7.GRPO 是什么？和 PPO 有什么区别？知道 GAE 吗？8.交叉熵 loss 公式怎么推导？具体怎么计算的？9.代码生成你怎么看？像 Trae 这类工具，项目代码怎么喂给 LLM 的？10.手撕题：最长回文子串（LeetCode 5）

查看10道真题和解析

0 点赞评论收藏

01-10 12:25

昆明理工大学算法工程师

快手多模态日常实习一面

1.默写二元交叉熵损失函数2.是否了解Sigmoid函数，Sigmoid函数有什么缺点3.MHA的运行机制4.为什么Transformer使用三角函数位置编码，相比于[1,2,3..]这种硬编码的好处在哪?5.Transformer的Attention计算过程中为什么要对QK的点积进行scale6.CLIP学习的范式，是如何构造正负样本对，如何进行对比学习7.解释Q-former机制，以及其中可学习Query的意义8.Temperature有什么作用9.聊项目10.代码:搜索旋转排序数组

查看10道真题和解析

0 点赞评论收藏

01-10 03:30

昆明理工大学算法工程师

作业帮NLP算法实习一面凉经

项目方面： 1、项目LLM如何微调的，数据如何注册到LLaMA Factory中？2、项目中最大的挑战是什么？面试官认为这个项目比较简单，就问了从这个项目中学到了什么？3、针对项目内容做了些提问，例如模型尺寸、为什么这个尺寸、内容、样本token、有没有bad case？4、聊了一些关于LLM的Json结构化输出5、结果的评估八股方面：1、1.7B模型为什么要用LoRA微调？全参微调会占用多大显存？2、关于batch size大小与泛化性关系、以及和learn rate的关系，以及累计梯度3、LoRA如何做初始化？4、Transformer中Encoder和Decoder的区别和联系，以及如果单独分开的话，优缺点是什么？5、Transformer中最核心的是Attention，Encoder中的叫Self-Attention，Decoder中的可以叫Self-Attention吗？6、有哪些代表性的Encoder模型，因为我回答了BERT，就追问了bert的训练任务？7、Tokenizer方法有什么？原理介绍一下。如何从自然文本映射到词汇表，即做Encode？文本中特殊的token如何处理？是要直接拆开吗？8、为什么需要位置编码？位置编码主要特征是什么？位置编码特性是什么，或者说怎么样才是一个好的位置编码？主流位置编码，及其思路？9、大模型中对显存的优化？模型、架构、或工程上？量化的对称量化和非对称量化？手撕：买股票的最好时机

查看16道真题和解析

0 点赞评论收藏

01-05 09:10

昆明理工大学算法工程师

今年不立flag了，只想好好活着

感觉过去几年我把自己逼得太狠了，结果可想而知，Flag立得越狠倒得越快。。2026年我不会再追求完美，只求踏实，目标变小了，更容易达成，反而更有劲儿，毕竟人不是需要24小时运转的机器，偶尔有些没用躺平的时光才是生活的留白吧

去年的flag与今年的小...

0 点赞评论收藏

01-01 15:25

昆明理工大学算法工程师

阿里大模型算法校招二面-55min

一、算法手撕+八股1. 手撕旋转矩阵优化 要求时间复杂度O(n²)空间O(1)2. LayerNorm和BatchNorm在训练时梯度计算有何本质区别？3. 推导MoE架构的负载均衡损失函数 如何避免专家坍缩4. 多模态融合中 对比学习损失和重构损失如何加权？5. 解释KV Cache的内存瓶颈 推导多头注意力计算复杂度二、项目深挖1. 微调Qwen时发现验证集loss震荡的可能原因2. 多工具调用中如何用DAG实现并行调度优化3. 长文本推理的压缩方案 对比Sliding Window和NTK4. 模型量化时遇到激活值异常溢出如何调试5. 自主构建的评估体系里 如何分离知识幻觉与推理幻觉三、场景设计为智能客服设计多轮对话系统：1. 如何用思维链提升工单分类准确率？2. 设计工具调用降级方案应对高并发场景3. 在有限算力下平衡响应速度与推理深度4. 构建用户意图漂移的实时检测机制

查看14道真题和解析

0 点赞评论收藏

创作者周榜

关注他的用户也关注了：