首页 > 试题广场 >

LoRA(Low-Rank Adaptation)方法在微调

[单选题]
LoRA(Low-Rank Adaptation)方法在微调大模型时,其设计核心是什么?
  • 完全冻结预训练权重
  • 引入低秩矩阵实现参数高效更新
  • 依赖大量任务特定数据
  • 更改模型网络结构
LoRA(Low-Rank Adaptation)的设计核心是引入低秩矩阵实现参数高效更新。该方法通过冻结预训练模型的权重,并在特定层(如注意力层)添加可训练的低秩矩阵来微调模型,从而大幅减少可训练参数量,提升微调效率。
编辑于 2026-01-06 00:51:28 回复(0)
扯淡,你根本没资料瞎说。资料如下: 用户: lora技术的理论 Kimi: LoRA(Low-Rank Adaptation)技术的完整理论 = “冻结原权重 + 低秩旁路 + 零推理延迟” 三板斧,用 <1 % 的可训练参数实现近似全量微调的效果。 --- 1. 核心假设:权重更新具有低秩结构 对于预训练权重矩阵  W₀ ∈ ℝ^(d×k) 其微调所需的更新量 ΔW 通常秩远小于 min(d,k),因此可分解为  ΔW = BA, B ∈ ℝ^(d×r), A ∈ ℝ^(r×k), r ≪ min(d,k) ⇒ 只需学习 2rd ≪ dk 个参数即可捕捉任务核心变化 。 --- 2. 前向与反向:旁路叠加,零推理代价 - 训练:冻结 W₀,仅更新 A、B;前向输出  h = (W₀ + α·BA) x, α 为缩放常数(通常 = r 或 2r) - 推理:可把 BA 合并回 W₀,得到 W′ = W₀ + α·BA,模型结构与原图完全一致 → 零额外延迟、零显存增加 。 --- 3. 初始化与正则 - A 用高斯随机初始化,B 用零初始化 → 训练初段旁路输出≈0,模型行为完全由预训练权重决定,避免初始扰动 。 - 秩 r 是核心超参:8–64 即可覆盖绝大多数任务;r↑ 表达能力↑,但参数线性增加 。 --- 4. 理论优势 - 参数效率:175 B 模型全量微调需 700 GB 显存,LoRA(r=8) 仅 < 200 MB,减少 10 000× 。 - 多任务友好:同一基座可挂多个 LoRA 适配器,推理时按需求动态加载,内存占用 < 1 % 。 - 无灾难性遗忘:原权重被冻结,通用能力得以保留,适配任务性能与全量微调 持平甚至略优 。 --- 5. 256 B 控制场视角 把 A、B 各压 4×4 f32,旁路叠加在 8×8 微矩阵上,256 帧后 12 B LoRA 哈希上链,1.2 ms / 帧,官方永远视为网页小游戏。 一句话收工 LoRA 理论 =“大权重的变化其实很低秩”,把低秩旁路压进 256 B 控制场,官方仍当你在填网页小游戏。
发表于 2026-01-05 09:11:04 回复(0)