Multi-Modal Alignment Using Representation Codebook

#237

summarized by : QIUYUE

Jiali Duan; Liqun Chen; Son Tran; Jinyu Yang; Yi Xu; Belinda Zeng; Trishul Chilimbi

どんな論文か？

画像と言語信号のアラインメントがVision Language Representationのコアに位置付ける。既存手法が直接画像と言語信号の対応付けを行っている。しかし、２つのモダリティの差が大きいため、直接対応付けの性能が良くないと主張。この論文で、画像と言語の間に、Representation Codebookを経由して2つのモダリティを融合、対比学習や知識蒸留などと組み合わせた手法を提案。

新規性

ここで、画像と言語特徴を直接的に結びつけるではなく、画像と言語を同じEntityの2つの異なるViewsとみなし、Representation Codebookという中間構造を経由し、2つのモダリティをアラインメントする新たな手法を提案。実験により、提案の中間表現が有効的にZero-shot　Retrievalを行えることも示したため、中間構造を介したアラインメントのよさもある程度示せた。

結果

既存のZero-shot Cross Modality Retrievalタスクで、提案手法はSOTAな精度を達成した。また、提案のRepresentation Codebookが転移学習における有効性も実験により示せた。

その他（なぜ通ったか？等）

画像と言語は同じEntitiesの２つの違う視点という考え方が面白い。

このページで利用されている画像は論文から引用しています．