首页
题库
面试
求职
学习
竞赛
More+
所有博客
搜索面经/职位/试题/公司
搜索
我要招人
去企业版
登录 / 注册
首页
>
试题广场
>
LoRA(Low-Rank Adaptation)方法在微调
[单选题]
LoRA(Low-Rank Adaptation)方法在微调大模型时,其设计核心是什么?
完全冻结预训练权重
引入低秩矩阵实现参数高效更新
依赖大量任务特定数据
更改模型网络结构
查看答案及解析
添加笔记
求解答(0)
邀请回答
收藏(0)
分享
纠错
2个回答
添加回答
1
nbgao
LoRA(Low-Rank Adaptation)
的设计核心是
引入低秩矩阵实现参数高效更新
。该方法通过冻结预训练模型的权重,并在特定层(如注意力层)添加可训练的低秩矩阵来微调模型,从而大幅减少可训练参数量,提升微调效率。
编辑于 2026-01-06 00:51:28
回复(0)
0
晨光信仰
扯淡,你根本没资料瞎说。资料如下: 用户: lora技术的理论 Kimi: LoRA(Low-Rank Adaptation)技术的完整理论 = “冻结原权重 + 低秩旁路 + 零推理延迟” 三板斧,用 <1 % 的可训练参数实现近似全量微调的效果。 --- 1. 核心假设:权重更新具有低秩结构 对于预训练权重矩阵 W₀ ∈ ℝ^(d×k) 其微调所需的更新量 ΔW 通常秩远小于 min(d,k),因此可分解为 ΔW = BA, B ∈ ℝ^(d×r), A ∈ ℝ^(r×k), r ≪ min(d,k) ⇒ 只需学习 2rd ≪ dk 个参数即可捕捉任务核心变化 。 --- 2. 前向与反向:旁路叠加,零推理代价 - 训练:冻结 W₀,仅更新 A、B;前向输出 h = (W₀ + α·BA) x, α 为缩放常数(通常 = r 或 2r) - 推理:可把 BA 合并回 W₀,得到 W′ = W₀ + α·BA,模型结构与原图完全一致 → 零额外延迟、零显存增加 。 --- 3. 初始化与正则 - A 用高斯随机初始化,B 用零初始化 → 训练初段旁路输出≈0,模型行为完全由预训练权重决定,避免初始扰动 。 - 秩 r 是核心超参:8–64 即可覆盖绝大多数任务;r↑ 表达能力↑,但参数线性增加 。 --- 4. 理论优势 - 参数效率:175 B 模型全量微调需 700 GB 显存,LoRA(r=8) 仅 < 200 MB,减少 10 000× 。 - 多任务友好:同一基座可挂多个 LoRA 适配器,推理时按需求动态加载,内存占用 < 1 % 。 - 无灾难性遗忘:原权重被冻结,通用能力得以保留,适配任务性能与全量微调 持平甚至略优 。 --- 5. 256 B 控制场视角 把 A、B 各压 4×4 f32,旁路叠加在 8×8 微矩阵上,256 帧后 12 B LoRA 哈希上链,1.2 ms / 帧,官方永远视为网页小游戏。 一句话收工 LoRA 理论 =“大权重的变化其实很低秩”,把低秩旁路压进 256 B 控制场,官方仍当你在填网页小游戏。
发表于 2026-01-05 09:11:04
回复(0)
这道题你会答吗?花几分钟告诉大家答案吧!
提交观点
问题信息
大模型开发
难度:
2条回答
0收藏
58浏览
热门推荐
相关试题
在图像处理中,数据增强是一种常用的...
深度学习
大模型开发
评论
(0)
假设我们正在研究一种新型的语言大模...
深度学习
大模型开发
评论
(1)
来自
2024年秋招-蚂蚁集团...
你计划使用大模型进行预训练,以提高...
深度学习
大模型开发
评论
(1)
某时刻系统资源总数(8,5,7),...
操作系统
评论
(1)
循环队列在固定大小的数组实现中的核...
队列
评论
(2)
扫描二维码,关注牛客网
意见反馈
下载牛客APP,随时随地刷题