26秋招字节大模型Agent一面

1.请介绍 Transformer 的结构组成及各部分作用
2.如何降低 Transformer 的计算复杂度?常见的稀疏注意力变体有哪些?
3.LoRA微调的原理是什么?秩 r 的选择会对模型表现产生什么影响?
4.kv cache是什么?为什么能极大地提升推理速度?
5.RAG的完整流程,构建向量检索库时如何处理时间衰减对召回的影响?
6.微调时的训练数据是怎么构建的?如何保证样本多样性和质量?
7.在 RAG+知识图谱的 Agent 系统中,知识图谱更新的机制是怎样的?是怎样保证实时性的?
8.训练 LoRA 模型时,你是如何选择冻结层的?依据是什么?
9.在高并发查询 Agent 系统中,你会如何优化召回和生成阶段的延迟?
10.大规模 Agent 系统在多线程/多进程场景下的资源调度策略如何设计?
11.如果你要在 GPU 资源有限的条件下同时提供推理和微调服务,如何做资源分配和任务调度以保证时延和吞吐?
12.代码:lc15 三数之和
全部评论
请问佬有论文吗? 感觉今年秋招面试机会多吗?俺也准备走大模型/应用
点赞 回复 分享
发布于 11-30 13:11 辽宁

相关推荐

1.你的 Agent 系统Prompt 是怎么设计和迭代的?有没有做过 Prompt 自动优化?当用户提出不完整的请求时,如何补全用户意图的?2.构建 Agent 的时候,遇到过哪些瓶颈?LangChain 的 memory 默认机制在多3.用户并发中怎么做隔离?你是如何保证线程安全的?4.微调 Llama2 你是怎么选择训练样本的?清洗逻辑是什么?你有没有观察到哪些训练样本质量问题对模型行为有很大影响?举例说明。5.DPO相比 SFT,有哪些优劣?它在 Agent 任务上效果提升明显吗?你怎么构造偏好对?构造逻辑是自动的还是人工?6.你说你服务部署在 vLLM 上,为何选择它?KV-cache 如何帮助推理加速?你自己做过哪些优化?7.假如需要支持 Streaming 输出,但当前服务延迟又超标,你会怎么折中设计?8.多轮对话上下文状态管理是如何做的?如何在高并发场景下保证一致性?9.你做的 Agent 使用了多少个外部工具,在调用链条上如何保障故障容错和超时机制?10.有没有做过工具调用失败后的feedback策略设计?11.训练过程中数据来自用户行为日志,你是如何从这些数据中抽取训练对话的?有没有做过归一化或事件抽象?12.有没有了解过带有时间窗口/偏移限制的对话系统?模型怎么“理解时间”?13.你觉得 Agent 哪些模块最容易在真实业务中出问题?你会如何监控和定位的?
查看13道真题和解析
点赞 评论 收藏
分享
评论
点赞
9
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务