在多模态预训练模型中，跨模态预训练任务有哪些常见的方法？

[不定项选择题]

图像-文本匹配（Image-Text Matching）

掩码语言建模（Masked Language Modeling）

视觉特征预测（Visual Feature Prediction）

多模态一致性判别（Multimodal Consistency Discrimination）

查看答案及解析

Vonian

注：若在多模态模型中加入 “结合图像信息预测掩码文本” 的变体任务，則属于跨模态

在多模态模型中，“结合图像信息预测掩码文本” 的变体任务（可称为 “跨模态掩码语言建模”）是一种典型的跨模态预训练任务。它在传统掩码语言建模（MLM）的基础上，引入了视觉模态（图像）信息作为辅助，强制模型学习 “视觉 - 语言” 两种模态间的语义关联，因此属于跨模态任务。

该任务的核心流程是：

发表于 2025-08-27 10:15:18 回复(0)

提交观点

问题信息

大模型开发

难度：

1条回答 44收藏 80浏览

扫一扫，把题目装进口袋