#196
summarized by : Keito Ishihara
Neural Sequential Phrase Grounding (SeqGROUND)

どんな論文か?

画像キャプションの各単語と画像内のオブジェクトの関連付けを行うタスクで、LSTMを用いて文脈に沿った関連付けを行うことのできる手法を提案した。
placeholder

新規性

従来は物体検出手法により検出された物体と、単語から得られた埋め込みベクトルの類似度の近いもので関連づけていたが、これは必ずしも文脈が指す対象を関連づけられなかった。 この論文では従来の特徴抽出に加えて、実際の位置情報とこれまでの関連付け情報をLSTMでエンコードした情報を使用することでこの問題を解決した。

結果

Flickr30K Entitiesデータセットを用いた実験で従来の最高精度を2.5%程度上回る。また同じオブジェクトが複数存在する場合などに文脈に沿った関連付けがで来ているかを人手評価。

その他(なぜ通ったか?等)