Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision
Abstract
背景:视觉领域缺乏无监督或者自监督学习,下游任务需要预训练模型。
目前给出的CLIP是使用带有显示标签的数据集进行训练的,本文利用一个包含十多个图片alt-text对的噪声数据集,该数据集不需要进行过滤以及后处理;
方法:双编码器架构学习使用对比损失来对其图像和文本对
任务:分类、图像-文本检索;
Introduction
预训练数据集无法进行规范的扩大,本文使用alt-text对进行提取视觉表征,不进行过滤和后处理,直接获取数据集。
模型的编码上使用最简单的VSE形式,但是在模态交互的部分使用交叉注意力机制计算。
标准数据集:Conceptual Captions dataset