分类
大连理工大学|软件工程|创中
ALIGN论文阅读 ALIGN论文阅读
Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision Abstract 背景:视觉领域缺乏无监督或者自监督学习
2024-03-01
InstructBLIP论文阅读 InstructBLIP论文阅读
InstructBLIP 代码地址:https://github.com/salesforce/LAVIS/tree/main/projects/instructblip 前言 这里主要对其数据构建的方法进行深入的研究,同时对基座模型B
2023-12-07
双流网络论文精读 双流网络论文精读
双流网络论文精读 前言 这几天在看毕设相关的文献,突然发现对视频embedding的方法不是很熟悉,因此看了一下双流和I3D的相关工作。 Two-Stream Convolutional Networks for Action Rec
2023-12-05
PBE论文阅读 PBE论文阅读
Progressive Backdoor Erasing via connecting Backdoor and Adversarial Attacks 相关知识 整体框架 Abstract 背景:深度学习网络容易受到两种攻击:后门
2023-11-26
Swin Transformer论文精读 Swin Transformer论文精读
Swin Transformer 论文:Swin Transformer: Hierarchical Vision Transformer using Shifted Windows 相关知识 FPN(特征金字塔) 基本原理:生成不同
2023-11-24
MoCo论文精读 MoCo论文精读
MoCo论文精读 前言:这一部分将通过MoCo这篇论文引入对比学习的研究讨论。 论文标题:Momentum Contrast for Unsupervised Visual Representation Learning 相关知识 对
2023-11-24
stable diffusion论文基础篇 stable diffusion论文基础篇
stable diffusion论文基础篇 前言 论文:High-resolution image synthesis with latent diffusion models code:https://github.com/CompV
2023-11-16
MAE论文精读 MAE论文精读
MAE论文精读 前言 这一部分算是diffusion基础论文的后记,用来记录ViT的相关工作。在CLIP的image encoder中使用了ViT,因此在此进行拓展,后续会补充对源码的学习。 相关知识 可以理解为MAE是ViT的一个
2023-11-15
diffusion基础论文阅读(更新至NVAE) diffusion基础论文阅读(更新至NVAE)
diffusion基础论文阅读 主要研究diffusion的三篇入门作,即: Deep unsupervised learning using nonequilibrium thermodynamics. Improved techni
2023-11-09
图神经网络学习 图神经网络学习
图神经网络学习 参考文献:https://distill.pub/2021/gnn-intro/ 前言 图神经网络的基本结构: 可以看到,在每一层传播之后图的基本结构没有发生变化,只对顶点、边以及全局信息进行了调整,也就是权重的变化。
2023-11-08
多模态论文学习——Multimodal Foundation Models(二) 多模态论文学习——Multimodal Foundation Models(二)
多模态论文学习——Multimodal Foundation Models(二) 这一部分我们着重分析第三章内容,即视觉生成相关的技术前沿。视觉生成常用于图像、视频以及神经辐射场、3D点云等等,这里我们主要针对其在AIGC领域的发展。文本
2023-11-06
多模态论文学习——Multimodal Foundation Models(一) 多模态论文学习——Multimodal Foundation Models(一)
多模态论文学习——Multimodal Foundation Models(一) 第一遍阅读 Abstract 本文关注于多模态基础模型的发展,根据领域发展是否成熟分成两类分别进行探讨: 成熟:通过学习vision backbones
2023-11-02
1 / 2