- …
- …
#753
summarized by : QIUYUE
どんな論文か?
視覚と言語をジョイント空間にEmbeddingするフレームワークUnified Visual-Semantic Embeddingsフレームワークを提案.提案モデルは①物体②属性③関係の3つのレベル上に視覚と言語コンセプトをalignさせる.具体的に,contrastive example miningを用いて,画像と相関及び不相関のCaptionのランキングベースなロスから学習を行う.
新規性
言語と対応付ける異なるレベルの視覚情報もImage上に対応する領域が異なることを仮定.これにより,異なるレベルの視覚情報と言語情報を空間上の対応ができる.Attentionメカニズム+大規模なデータセットで学習でUnsupervisedでAlignできる.
結果
MS-COCOデータセットでCross-Modal Retrieval,Text-to-Image Retrieval, Semantic Parsing with Visual Cuesなどの実験で提案のVisual-Semantic EmbeddingsのSOTAな有効性をしめした.更に,提案手法はtext-domain adversarial attackにもロバスト.
その他(なぜ通ったか?等)
提案のフレームワークは様々なVision-Languageタスクに用いられる.例えば:Image Captioning、Grounding、VQAなど.提案のフレームワークはObjectレベルのアノテーションが必要とせずに,大規模なデータセットを用いて学習を行うことで,強い言語と視覚のEmbeddingの学習が可能.
- …
- …