Qwen是怎么实现超长上下文的?

面试题简述

现在模型都在追求上下文,你知道业界一般怎么做的吗?比如Qwen是怎么实现超长上下文能力的?

面试官想听的

1、解释超长上下文的常见技术路线。

2、能具体说出 Qwen 的 Attention Sinks。

3、能提到 RoPE 插值、多尺度位置编码。

面试示例回答

业界主流的上下文方案包括:

1、位置编码扩展,比如 RoPE 插值。

2、注意力稀疏化,比如 Longformer。

3、扩展 KV Cache,如 MQA/GQA。

4、Attention Sinks 解决模型以往问题。

详细内容可跳转该链接查看详情:http://xhslink.com/o/9If4fL2eS0F

由浅入深分析

1、RoPE插值(最主流)

(1)原因:原始 RoPE 在长序列下会失真。

(2)解决:线性插值、NTK-aware、分段插值。

(3)Qwen使用增强版插值 -> 支持超长 context

2、Attention Sinks

(1)现场:模型看到很长文本后前文被忘掉

(2)原因:注意力随深度衰减

(3)解决:人为加入若干 Sink tokens,让注意力返回前文。

3、注意力稀疏化

(1)Longformer/BigBird

(2)适合更长序列,但难与原生LLM兼容,因此商业LLM大多选择 RoPE 插值路线。

面试加分点

1、提 Qwen 的 Attention Sinks。

2、能解释 RoPE 插值为什么有效。

3、能描述长文本遗忘现象。

#大模型##春招##实习##面经##面试#
2025大模型复盘 文章被收录于专栏

带你复盘2025年秋招大模型高频面试题,拆解大模型面试到底在考啥!

全部评论

相关推荐

不愿透露姓名的神秘牛友
2025-12-16 01:41
腾讯pcg-腾讯新闻 技术研究-多模态 0 硕士985
点赞 评论 收藏
分享
2025-12-16 13:15
门头沟学院 Java
1.你对图数据库有了解么?介绍一下2.你项目里为什么一定要用netty呢3.我现在有10wTPS 的秒杀接口,用Redisson实现了锁,但线上经常出现锁未释放排查发现是watchdog机制失效,你觉得这种情况该如何彻底解决4.你觉得一定要使用分布式锁解决幂等么,不加这个锁可不可以5.你觉得数据库的行锁和Redis分布式锁或者zk的锁有什么区别6.性能?你觉得行锁性能一定会比分布式锁差么7.线上观察到 GC 日志里出现了这样一条 Full GC 日志:[Full GC (Ergonomics) [PSYoungGen: 65536K->0K(76288K)] [ParOldGen: 1750000K->1750000K(1750000K)],你能不能不靠任何工具,手动推断出这个进程可能的内存配置,以及这次GC的本质问题8.如果你们在业务高峰期观察到 Eden 区被频繁触发 GC,但实际对象存活率很低,你怎么看9.我们一个Kafka topic 被 5 个消费组同时消费,每个 group 负责写不同系统。中间某个group偶发失败,但你不能重放整条消息(因为另外几个已经成功),你怎么保证这组失败消息能精准重试?还能保证幂等?10.手撕:给你一个数组,它里面的元素呢都是正整数。再给你一个目标值,要求就是你在这个数组里面找到这个子数组和要大于等于这个目标值,然后返回结果是返回子数组的最小长度。
查看10道真题和解析
点赞 评论 收藏
分享
评论
点赞
3
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务