#713
summarized by : Katsuya Shimabukuro
Multi-Level Multimodal Common Semantic Space for Image-Phrase Grounding

どんな論文か?

画像とその説明文が与えられ、説明文内の単語と画像の対応関係を求めるPhrase Groundingのタスクにおいて、学習時に説明文と画像のペアしか与えられない弱教師あり学習の設定で、既存手法を大幅に上回る性能を示した
placeholder

新規性

領域分割した画像の各レイヤー、および各単語のアテンションを計算し、アテンションをもとにスコアを算出する。一致する画像と説明文のスコアが大きくなるように、マッピング用のパラメーターを学習する

結果

MSCOCOもしくはVisualGenomeで事前学習した上で、各テストセットで評価し、VisualGenomeで35ポイント、Flickr30kで20ポイント、ReferItで20ポイントほど上回る性能を示した。

その他(なぜ通ったか?等)