2025-12-01 21:40 上海交通大学算法工程师发布于上海

关注

Qwen是怎么实现超长上下文的？

面试题简述

现在模型都在追求上下文，你知道业界一般怎么做的吗？比如Qwen是怎么实现超长上下文能力的？

面试官想听的

1、解释超长上下文的常见技术路线。

2、能具体说出 Qwen 的 Attention Sinks。

3、能提到 RoPE 插值、多尺度位置编码。

面试示例回答

业界主流的上下文方案包括：

1、位置编码扩展，比如 RoPE 插值。

2、注意力稀疏化，比如 Longformer。

3、扩展 KV Cache，如 MQA/GQA。

4、Attention Sinks 解决模型以往问题。

详细内容可跳转该链接查看详情：http://xhslink.com/o/9If4fL2eS0F

由浅入深分析

1、RoPE插值（最主流）

（1）原因：原始 RoPE 在长序列下会失真。

（2）解决：线性插值、NTK-aware、分段插值。

（3）Qwen使用增强版插值 -> 支持超长 context

2、Attention Sinks

（1）现场：模型看到很长文本后前文被忘掉

（2）原因：注意力随深度衰减

（3）解决：人为加入若干 Sink tokens，让注意力返回前文。

3、注意力稀疏化

（1）Longformer/BigBird

（2）适合更长序列，但难与原生LLM兼容，因此商业LLM大多选择 RoPE 插值路线。

面试加分点

1、提 Qwen 的 Attention Sinks。

2、能解释 RoPE 插值为什么有效。

3、能描述长文本遗忘现象。

#大模型##春招##实习##面经##面试#

2025大模型复盘文章被收录于专栏

带你复盘2025年秋招大模型高频面试题，拆解大模型面试到底在考啥！

全部评论

推荐最新楼层

不愿透露姓名的神秘牛友

2025-12-16 01:41

大模型日常实习腾讯vs京东

投票

腾讯pcg-腾讯新闻技术研究-多模态 0 硕士985

点赞评论收藏

2025-12-14 12:22

华南理工大学 Java

快手大模型后端日常一面

总时长1hour实习经历拷打实习比较有挑战的需求是什么缓存过期时间怎么设置，如何防止缓存雪崩情况八股：HashMap 的数据结构是什么样的？HashMap 是不是线程安全的容器？多线程环境下使用会产生什么问题？想要使用线程安全的 HashMap，有哪些解决方法？ConcurrentHashMap 内部是怎么保证线程安全的？ConcurrentHashMap 在扩容过程中是怎么保证线程安全的？MySQL 中的事务有哪几个特性？MySQL 是如何保证事务的原子性、持久性、隔离性、一致性的？这四个性分别通过什么实现的MVCC 是一个什么样的机制？手撕 三数之和一天后约二面已拒

点赞评论收藏

2025-12-14 12:21

华南理工大学 Java

字节tiktok后端日常一面

总时长45min实习拷打1.实习技术选型2.了解ES架构以及索引建立方式吗（不了解）3.如何平衡学业和实习时间八股拷打1.Java 线程和 OS 线程之间是什么关系？（一对一，jdk21后续出现协程类似的线程）2.Java 中有没有机制可以避免线程死锁？如何避免死锁？（我寻思java内置的没有吧）3.Kafka 出现消息消费 lag（消费延迟、消息堆积）时，如何排查问题？怎么处理4.JWT原理，JWT的token存储在客户端什么位置5.对称加密，非对称加密6.JWT内部结构，如何防止篡改，加密算法？手撕：找出数组中最小的k个数反问：实习语言业务toC或者toB？

查看10道真题和解析

点赞评论收藏

2025-12-16 13:15

门头沟学院 Java

字节国际化支付Java后端二面50min

1.你对图数据库有了解么？介绍一下2.你项目里为什么一定要用netty呢3.我现在有10wTPS 的秒杀接口，用Redisson实现了锁，但线上经常出现锁未释放排查发现是watchdog机制失效，你觉得这种情况该如何彻底解决4.你觉得一定要使用分布式锁解决幂等么，不加这个锁可不可以5.你觉得数据库的行锁和Redis分布式锁或者zk的锁有什么区别6.性能？你觉得行锁性能一定会比分布式锁差么7.线上观察到 GC 日志里出现了这样一条 Full GC 日志：[Full GC (Ergonomics) [PSYoungGen: 65536K->0K(76288K)] [ParOldGen: 1750000K->1750000K(1750000K)]，你能不能不靠任何工具，手动推断出这个进程可能的内存配置，以及这次GC的本质问题8.如果你们在业务高峰期观察到 Eden 区被频繁触发 GC，但实际对象存活率很低，你怎么看9.我们一个Kafka topic 被 5 个消费组同时消费，每个 group 负责写不同系统。中间某个group偶发失败，但你不能重放整条消息（因为另外几个已经成功），你怎么保证这组失败消息能精准重试？还能保证幂等？10.手撕：给你一个数组，它里面的元素呢都是正整数。再给你一个目标值，要求就是你在这个数组里面找到这个子数组和要大于等于这个目标值，然后返回结果是返回子数组的最小长度。

查看10道真题和解析

点赞评论收藏

2025-12-12 15:20

门头沟学院 Java

字节日常后端实习二面1h

1.实习介绍2.说下你实习遇到的难点，最有挑战的事情3.打断一下，你怎么判断他慢不慢的4.explain没用过吗，哪些指标可以看到你慢不慢5.你刚刚说加索引，你怎么知道你加的索引有效，说不定你加了索引不加快只是因为你没有生效索引6.说下你日常工作7.这个缺失字段是如何补全的，你怎么知道要补全哪些8.映射你是怎么映射的，具体流程是什么9.说具体一点，什么操作，从源头到结果具体有哪些操作10.mysql和es你是如何保证一致性的11.那这时候读取的es假如是旧数据，他没有及时更新，怎么解决12.你说半复制，降级到mysql，那你怎么判断他读到的是旧数据呢，你说的这些只是保证他的一个消息的发送是成功了，那用户读迨觅s读到的数据怎么判断是不是旧数据13.手撕:二分查找14.反问

查看12道真题和解析

点赞评论收藏

招聘动态

27届简历点评

27届寒假/转正实习汇总

全站热榜

创作者周榜

正在热议

# 为了减少AI幻觉，你注入过哪些设定？ #

# 关于春招/暑期实习，你想知道哪些信息？ #

# 简历无回复，你会继续海投还是优化再投？ #

138787次浏览 875人参与

# 从哪些方向判断这个offer值不值得去？ #

51055次浏览 348人参与

# 暑假倒计时，你都干了些啥？ #

40300次浏览 215人参与