首页 > 试题广场 >

关于多模态大模型(如 BLIP-2、LLaVA、GPT-4V

[不定项选择题]
关于多模态大模型(如 BLIP-2、LLaVA、GPT-4V)的表述正确的是(多选)
  • LLaVA 完全移除视觉编码器
  • 多数开源多模态 LLM 的视觉适配层参数量远小于语言模型主体,可视作 PEFT
  • GPT-4V 将视觉信息 token 化并与文本一起在统一 Transformer 建模
  • BLIP-2 冻结视觉编码器 + Q-former,将视觉特征对齐到语言模型可用空间

这道题你会答吗?花几分钟告诉大家答案吧!