Unified Visual-Semantic Embeddings: Bridging Vision and Language With Structured Meaning Representations

#753

summarized by : QIUYUE

Hao Wu, Jiayuan Mao, Yufeng Zhang, Yuning Jiang, Lei Li, Weiwei Sun, Wei-Ying Ma

どんな論文か？

視覚と言語をジョイント空間にEmbeddingするフレームワークUnified Visual-Semantic Embeddingsフレームワークを提案．提案モデルは①物体②属性③関係の3つのレベル上に視覚と言語コンセプトをalignさせる．具体的に，contrastive example miningを用いて，画像と相関及び不相関のCaptionのランキングベースなロスから学習を行う．

新規性

言語と対応付ける異なるレベルの視覚情報もImage上に対応する領域が異なることを仮定．これにより，異なるレベルの視覚情報と言語情報を空間上の対応ができる．Attentionメカニズム＋大規模なデータセットで学習でUnsupervisedでAlignできる．

結果

MS-COCOデータセットでCross-Modal Retrieval，Text-to-Image Retrieval, Semantic Parsing with Visual Cuesなどの実験で提案のVisual-Semantic EmbeddingsのSOTAな有効性をしめした．更に，提案手法はtext-domain adversarial attackにもロバスト．

その他（なぜ通ったか？等）

提案のフレームワークは様々なVision-Languageタスクに用いられる．例えば：Image Captioning、Grounding、VQAなど．提案のフレームワークはObjectレベルのアノテーションが必要とせずに，大規模なデータセットを用いて学習を行うことで,強い言語と視覚のEmbeddingの学習が可能．

このページで利用されている画像は論文から引用しています．