LLaVA 完全移除视觉编码器
多数开源多模态 LLM 的视觉适配层参数量远小于语言模型主体,可视作 PEFT
GPT-4V 将视觉信息 token 化并与文本一起在统一 Transformer 建模
BLIP-2 冻结视觉编码器 + Q-former,将视觉特征对齐到语言模型可用空间
这道题你会答吗?花几分钟告诉大家答案吧!
扫描二维码,关注牛客网
下载牛客APP,随时随地刷题