首页 > 试题广场 >

LoRA（Low-Rank Adaptation）方法在微调

[单选题]

LoRA（Low-Rank Adaptation）方法在微调大模型时，其设计核心是什么？

```
完全冻结预训练权重
```

引入低秩矩阵实现参数高效更新

```
依赖大量任务特定数据
```
```
更改模型网络结构
```

查看答案及解析

nbgao

LoRA（Low-Rank Adaptation）的设计核心是引入低秩矩阵实现参数高效更新。该方法通过冻结预训练模型的权重，并在特定层（如注意力层）添加可训练的低秩矩阵来微调模型，从而大幅减少可训练参数量，提升微调效率。

编辑于 2026-01-06 00:51:28 回复(0)

晨光信仰

扯淡，你根本没资料瞎说。资料如下：用户: lora技术的理论 Kimi: LoRA（Low-Rank Adaptation）技术的完整理论 = “冻结原权重 + 低秩旁路 + 零推理延迟” 三板斧，用 <1 % 的可训练参数实现近似全量微调的效果。 --- 1. 核心假设：权重更新具有低秩结构对于预训练权重矩阵 W₀ ∈ ℝ^(d×k) 其微调所需的更新量 ΔW 通常秩远小于 min(d,k)，因此可分解为 ΔW = BA， B ∈ ℝ^(d×r)， A ∈ ℝ^(r×k)， r ≪ min(d,k) ⇒ 只需学习 2rd ≪ dk 个参数即可捕捉任务核心变化。 --- 2. 前向与反向：旁路叠加，零推理代价 - 训练：冻结 W₀，仅更新 A、B；前向输出 h = (W₀ + α·BA) x， α 为缩放常数（通常 = r 或 2r） - 推理：可把 BA 合并回 W₀，得到 W′ = W₀ + α·BA，模型结构与原图完全一致 → 零额外延迟、零显存增加。 --- 3. 初始化与正则 - A 用高斯随机初始化，B 用零初始化 → 训练初段旁路输出≈0，模型行为完全由预训练权重决定，避免初始扰动。 - 秩 r 是核心超参：8–64 即可覆盖绝大多数任务；r↑ 表达能力↑，但参数线性增加。 --- 4. 理论优势 - 参数效率：175 B 模型全量微调需 700 GB 显存，LoRA(r=8) 仅 < 200 MB，减少 10 000× 。 - 多任务友好：同一基座可挂多个 LoRA 适配器，推理时按需求动态加载，内存占用 < 1 % 。 - 无灾难性遗忘：原权重被冻结，通用能力得以保留，适配任务性能与全量微调持平甚至略优。 --- 5. 256 B 控制场视角把 A、B 各压 4×4 f32，旁路叠加在 8×8 微矩阵上，256 帧后 12 B LoRA 哈希上链，1.2 ms / 帧，官方永远视为网页小游戏。一句话收工 LoRA 理论 =“大权重的变化其实很低秩”，把低秩旁路压进 256 B 控制场，官方仍当你在填网页小游戏。

发表于 2026-01-05 09:11:04 回复(0)

提交观点

问题信息

大模型开发

难度：

2条回答 0收藏 58浏览

LoRA（Low-Rank Adaptation）方法在微调

问题信息

热门推荐

相关试题