首页 > 试题广场 >

在多模态预训练模型中,跨模态预训练任务有哪些常见的方法?

[不定项选择题]

在多模态预训练模型中,跨模态预训练任务有哪些常见的方法?

  • 图像-文本匹配(Image-Text Matching)

  • 掩码语言建模(Masked Language Modeling)

  • 视觉特征预测(Visual Feature Prediction)

  • 多模态一致性判别(Multimodal Consistency Discrimination)

注:若在多模态模型中加入 “结合图像信息预测掩码文本” 的变体任务,則属于跨模态

在多模态模型中,“结合图像信息预测掩码文本” 的变体任务(可称为 “跨模态掩码语言建模”)是一种典型的跨模态预训练任务。它在传统掩码语言建模(MLM)的基础上,引入了视觉模态(图像)信息作为辅助,强制模型学习 “视觉 - 语言” 两种模态间的语义关联,因此属于跨模态任务。

一、任务定义与核心逻辑

该任务的核心流程是:

  1. 给定一对语义相关的 “图像 - 文本对”(例如,图像为 “一只猫坐在沙发上”,对应文本为 “沙发上有一只 [MASK],它的毛色是白色的”);
  2. 随机掩码文本中的部分 token(如名词、动词等关键信息,即上述示例中的 “[MASK]”);
  3. 模型需要结合未掩码的文本上下文对应的图像内容,共同预测被掩码的 token(上例中需预测出 “猫”)

发表于 2025-08-27 10:15:18 回复(0)