Multi-Level Multimodal Common Semantic Space for Image-Phrase Grounding

#713

summarized by : Katsuya Shimabukuro

Hassan Akbari, Svebor Karaman, Surabhi Bhargava, Brian Chen, Carl Vondrick, Shih-Fu Chang

画像とその説明文が与えられ、説明文内の単語と画像の対応関係を求めるPhrase Groundingのタスクにおいて、学習時に説明文と画像のペアしか与えられない弱教師あり学習の設定で、既存手法を大幅に上回る性能を示した

領域分割した画像の各レイヤー、および各単語のアテンションを計算し、アテンションをもとにスコアを算出する。一致する画像と説明文のスコアが大きくなるように、マッピング用のパラメーターを学習する

MSCOCOもしくはVisualGenomeで事前学習した上で、各テストセットで評価し、VisualGenomeで35ポイント、Flickr30kで20ポイント、ReferItで20ポイントほど上回る性能を示した。

このページで利用されている画像は論文から引用しています．