#237
summarized by : QIUYUE
Multi-Modal Alignment Using Representation Codebook

どんな論文か?

画像と言語信号のアラインメントがVision Language Representationのコアに位置付ける。既存手法が直接画像と言語信号の対応付けを行っている。しかし、2つのモダリティの差が大きいため、直接対応付けの性能が良くないと主張。この論文で、画像と言語の間に、Representation Codebookを経由して2つのモダリティを融合、対比学習や知識蒸留などと組み合わせた手法を提案。
placeholder

新規性

ここで、画像と言語特徴を直接的に結びつけるではなく、画像と言語を同じEntityの2つの異なるViewsとみなし、Representation Codebookという中間構造を経由し、2つのモダリティをアラインメントする新たな手法を提案。実験により、提案の中間表現が有効的にZero-shot Retrievalを行えることも示したため、中間構造を介したアラインメントのよさもある程度示せた。

結果

既存のZero-shot Cross Modality Retrievalタスクで、提案手法はSOTAな精度を達成した。また、提案のRepresentation Codebookが転移学習における有効性も実験により示せた。

その他(なぜ通ったか?等)

画像と言語は同じEntitiesの2つの違う視点という考え方が面白い。