ALIGN论文阅读

Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision

Abstract

背景:视觉领域缺乏无监督或者自监督学习,下游任务需要预训练模型。

目前给出的CLIP是使用带有显示标签的数据集进行训练的,本文利用一个包含十多个图片alt-text对的噪声数据集,该数据集不需要进行过滤以及后处理;

方法:双编码器架构学习使用对比损失来对其图像和文本对

任务:分类、图像-文本检索;

Introduction

预训练数据集无法进行规范的扩大,本文使用alt-text对进行提取视觉表征,不进行过滤和后处理,直接获取数据集。

模型的编码上使用最简单的VSE形式,但是在模态交互的部分使用交叉注意力机制计算。

标准数据集:Conceptual Captions dataset


   转载规则


《ALIGN论文阅读》 xhsioi 采用 知识共享署名 4.0 国际许可协议 进行许可。
 上一篇
2024年终总结——xhsioi 2024年终总结——xhsioi
2024年终总结——xhsioi 此刻我怀着最优化数学考崩了的心情准备总结一下即将过去的2024年。为什么写这篇年终总结呢?一方面是看到群友去年写了年终总结,感觉确实有意义;另一方面,今年的事情确实很多,也算得上丰富多彩,因此写一篇年终总
2024-12-31
下一篇 
每日一题整理——2023.11 每日一题整理——2023.11
每日一题整理——2023.11 前言 这个月整理的题目比较少,一方面是偷懒了,另一方面就是以后只做中文站的题了,一天两道太浪费时间了。 题 11.4 Last Moment Before All Ants Fall Out of a
2023-12-15
  目录