#753
summarized by : QIUYUE
Unified Visual-Semantic Embeddings: Bridging Vision and Language With Structured Meaning Representations

どんな論文か?

視覚と言語をジョイント空間にEmbeddingするフレームワークUnified Visual-Semantic Embeddingsフレームワークを提案.提案モデルは①物体②属性③関係の3つのレベル上に視覚と言語コンセプトをalignさせる.具体的に,contrastive example miningを用いて,画像と相関及び不相関のCaptionのランキングベースなロスから学習を行う.
placeholder

新規性

言語と対応付ける異なるレベルの視覚情報もImage上に対応する領域が異なることを仮定.これにより,異なるレベルの視覚情報と言語情報を空間上の対応ができる.Attentionメカニズム+大規模なデータセットで学習でUnsupervisedでAlignできる.

結果

MS-COCOデータセットでCross-Modal Retrieval,Text-to-Image Retrieval, Semantic Parsing with Visual Cuesなどの実験で提案のVisual-Semantic EmbeddingsのSOTAな有効性をしめした.更に,提案手法はtext-domain adversarial attackにもロバスト.

その他(なぜ通ったか?等)

提案のフレームワークは様々なVision-Languageタスクに用いられる.例えば:Image Captioning、Grounding、VQAなど.提案のフレームワークはObjectレベルのアノテーションが必要とせずに,大規模なデータセットを用いて学習を行うことで,強い言語と視覚のEmbeddingの学習が可能.