Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision

Abstract

背景：视觉领域缺乏无监督或者自监督学习，下游任务需要预训练模型。

目前给出的CLIP是使用带有显示标签的数据集进行训练的，本文利用一个包含十多个图片alt-text对的噪声数据集，该数据集不需要进行过滤以及后处理；

方法：双编码器架构学习使用对比损失来对其图像和文本对

任务：分类、图像-文本检索；

预训练数据集无法进行规范的扩大，本文使用alt-text对进行提取视觉表征，不进行过滤和后处理，直接获取数据集。

模型的编码上使用最简单的VSE形式，但是在模态交互的部分使用交叉注意力机制计算。

标准数据集：Conceptual Captions dataset

转载规则

《ALIGN论文阅读》由 xhsioi 采用知识共享署名 4.0 国际许可协议进行许可。

2024年终总结——xhsioi 此刻我怀着最优化数学考崩了的心情准备总结一下即将过去的2024年。为什么写这篇年终总结呢？一方面是看到群友去年写了年终总结，感觉确实有意义；另一方面，今年的事情确实很多，也算得上丰富多彩，因此写一篇年终总

每日一题整理——2023.11 前言这个月整理的题目比较少，一方面是偷懒了，另一方面就是以后只做中文站的题了，一天两道太浪费时间了。题 11.4 Last Moment Before All Ants Fall Out of a

2023-12-15 leetcode