2025-12-18 20:29 门头沟学院人工智能发布于山东

关注

大模型推理加速：KVCache和Pageattendtion

首先声明不搞infra的不用看，我现在看底层了，

本篇内容基于Efficient Memory Management for Large Language Model Serving with PagedAttention》 (SOSP 2023)出处：加州大学伯克利分校（UC Berkeley）

这篇里面讲了vllm，那么我们就先讲vllm。

LLM 模型在推理阶段的显存有三部份组成：模型权重、KVCache 显存占用以及激活值显存占用。

而今天我们是速成教程，所以又要体现深度，那么就先讲KVCache，

这个本质上是一种通用的思路就是减少k，v的计算，采用缓存的机制去减少中间值，

而这个的问题是kv的乘积是会有上限的，因为本来就很大，HBM根本放不下，所以vllm提出思路去优化这个东西，去搞定显存碎片。

同样的在HBM里面存储基本上都是连续存储的，也就是说少了一个，少了10个都是少了。

而现在搞成分页存储，不会出现空缺的。

当全部的空闲HBM被塞满，

这里暂时讲Swapping：

当多余的KV Cache会被提到cpu内存里面。

然后这个是怎么实现的？

基本上逻辑是：

第一步：

当新请求， Block Table分配空闲块的编号。

第二步：

定位物理地址：物理地址 = 物理块ID * 块大小 + (35 % 16) * 每个Token的特征维度。

第三步：

在计算的时候，动态地把这些散乱的地址传给 GPU/NPU。

当同时请求时候就采取写时复制。

当大量人同时询问同一个问题时候，此时采取多序列共享机制，也就是哈希映射：

这么解释呢？就是说记录物理块的地址位置，然后新的相似的token进来，这个block table直接指过去就行。这样就不会出现kv cache无限复制的问题了。

然后同时访问，这个时候hash冲突了，也就是网络请求太多，

那么就LRU，先把最少访问的释放同时触发swapping吧没用的丢出cpu了。

现在最新的技术也就是vllm的发展思路：

1：速度推理加速：投机采样

可以用小模型先给几个词然后大模型验证，这样减少完整跑的神经网络和逻辑。

2：延迟优化减少：切块预处理

太长的token进来，就直接切块然后混在输出里面。

3：解码：多卡

等于一张卡负责算kv cache，一张卡负责decode，甚至一张卡搞promot。

最后总结一下：

Vllm启动后：

Scheduler：负责控制哪些请求该进 Batch，哪些该排队。

Block Manager（块管理器）： Block Table 所在地，负责划拨 HBM 显存块。

Worker：负责在 NPU/GPU 上跑矩阵运算的。

一般是先跑算子这个跑通才能调内存，最后开始调策略。

#硬件/芯片公司工作体验#

机器学习，推理优化，芯片架构。文章被收录于专栏

放一些相关的，这里算是大模型的进阶版了。这个封面是吉米。

全部评论

推荐最新楼层

01-13 20:06

南京大学算法工程师

27届目前已开实习汇总，持续更新，分享给需要的牛友！

大家好，作为往届经历过实习和秋招的师姐，26届春招还没开始，最近就看到很多27届的学弟学妹已经开始焦虑实习了开个帖子记录27届新开实习，含暑期转正实习&日常实习，暑期不多，日常实习为主，暑期实习年后更新，可以先mark此贴持续更新，需要的牛油可mark,以下企业均可通过官网投递，祝各位都能成为offer收割机，以时间顺序✅小红书：未来市集实习生10.22开启，主要招产品经理日常实习，1.5发了小红书RED HR元气储备营，主要招HR实习生。非技术岗同学多多关注，不得不说，26届开得薪资真香，去年4月实习开了顶尖计划实习生，今年不知道有没有常规批次的，期待一波~✅腾讯：HR日常实习 11...

点赞评论收藏

01-10 22:35

浙江大学算法工程师

小红书大模型算法实习一面

1️⃣ 实习介绍2️⃣ 拷打 rag 项目：1.项目还可以提升的地方2.感觉自己可以多久完成这个项目3.dpo训练对于系统问答的优化在哪里4.提高模型的准确率核心是什么5.怎么提高数据的质量6.rag 文档怎么切分7.rag 向量化的模型8.rerank 用的什么模型9.有没有微调 rerank 模型/应该怎么微调10.dpo 用的什么库11.代码：已知无序数组，求第 k 大数

查看11道真题和解析

点赞评论收藏

01-19 22:03

已编辑

门头沟学院引擎开发

游戏引擎校招求职实录与上岸(劝退)指南

01. 个人背景与秋招战况背景：本科：C9 EE硕士：海硕CS秋招方向：只投递了 引擎 / 图形 / GPU 相关方向。最终Offer情况：游戏大厂：2 家。其中一家明确给了 SSP。游戏中厂：3 家。游戏小厂：2 家。影视行业：1 家（离线渲染）。硬件/手机厂：2 家（GPU/图形方向）。技术栈说明：游戏厂除了一家是自研引擎外，其余所有 Offer 对应的岗位均是 UE5 引擎开发。总结：整体面试评价应该都还不错，薪资基本都在 SP 到 SSP 的档位（同厂同职位较高水平）。在经历了一整季的面试后，写一个帖子聊聊引擎校招生的求职现状。02. 最初的最初：行业劝退与心态建设如果你对游戏行业有厚...

李橙子：你想要什么样的生活，就努力去创造

游戏求职进展汇总

点赞评论收藏

01-12 21:55

中山大学算法工程师

问得很杂:字节跳动广告算法面经

查看9道真题和解析

点赞评论收藏

01-26 15:38

广州希音国际进出口有限公司_供应链管理(准入职员工)

shein内推，shein内推码

业务一面--30mim自我介绍在安克创新的产品运营主要做了什么?未来的职业规划方向？产品经理和产品运营的区别?两者重叠的核心部分是什么？为什么想做产品运营？为什么实习都不超过半年？这次实习的预期时长与到岗时间？需求收集与过滤占比较高，能接受吗？（其余为面试官讲解岗位内容）二面-25min自我介绍未来希望做产品运营还是产品经理？对该产品的哪条业务线感兴趣？B端产品和C端产品的区别?为什么想做B端产品？（过往为电商运营经验）一周出勤时间？英语听说读写水平？英语自我介绍英语问答：能否接受跨国会议的时差？全球超级独角兽SHEIN26届校招网申开启【关于Shein】全球领先的跨境电商，服务于150+个国...

点赞评论收藏

招聘动态

27届简历点评

27届寒假/转正实习汇总

全站热榜

创作者周榜

正在热议

# 为了减少AI幻觉，你注入过哪些设定？ #

# 关于春招/暑期实习，你想知道哪些信息？ #