CVPR2022論文サマリ

tag: multi-modal

TubeDETR: Spatio-Temporal Video Grounding With Transformers

by: Kazuki Omi

Multi modal Object detection Video Vision and language

Everything at Once – Multi-Modal Fusion Transformer for Video Retrieval

by: Chihiro Nakatani（中谷千洋）

Multi modal Video

Aesthetic Text Logo Synthesis via Content-Aware Layout Inferring

by: Yoshi Truong

Dataset GAN Multi modal Vision and language

CLIPstyler: Image Style Transfer With a Single Text Condition

by: Takeru Endo

Multi modal Vision and language

UTC: A Unified Transformer With Inter-Task Contrastive Learning for Visual Dialog

by: Takeru Endo

Multi modal Vision and language