- …
- …
#237
summarized by : QIUYUE
どんな論文か?
画像と言語信号のアラインメントがVision Language Representationのコアに位置付ける。既存手法が直接画像と言語信号の対応付けを行っている。しかし、2つのモダリティの差が大きいため、直接対応付けの性能が良くないと主張。この論文で、画像と言語の間に、Representation Codebookを経由して2つのモダリティを融合、対比学習や知識蒸留などと組み合わせた手法を提案。
新規性
ここで、画像と言語特徴を直接的に結びつけるではなく、画像と言語を同じEntityの2つの異なるViewsとみなし、Representation Codebookという中間構造を経由し、2つのモダリティをアラインメントする新たな手法を提案。実験により、提案の中間表現が有効的にZero-shot Retrievalを行えることも示したため、中間構造を介したアラインメントのよさもある程度示せた。
結果
既存のZero-shot Cross Modality Retrievalタスクで、提案手法はSOTAな精度を達成した。また、提案のRepresentation Codebookが転移学習における有効性も実験により示せた。
その他(なぜ通ったか?等)
画像と言語は同じEntitiesの2つの違う視点という考え方が面白い。
- …
- …