Intention Oriented Image Captions With Guiding Objects

#715

summarized by : siida

Yue Zheng, Yali Li, Shengjin Wang

どんな論文か？

Image Captioningにおいて、画像の中で目立たないオブジェクトに関するテキストは生成されづらい。よってそのようなオブジェクトに注目する Image Captions with Guiding Objects(CGO)モデルを提案する。

新規性

提案手法は二段階の階層的な構造を持つ。(1)画像からobjectを推定, (2)objectをbegin of sentenceとして双方向に文を生成, VQAのベースラインモデル[Anderson+, IEEE-2018]では文の途中の単語から双方向にデコードする機能はなく、(2)が主要な新規性である。

結果

MSCOCO[Lin, ECCV-2014]を使った実験において、DCC[Hendricks, IEEE-2016]やDNOC[Wu+, ACM-2018]といった先行研究を超えるF1スコアを挙げた。

その他（なぜ通ったか？等）

Objectという重要な単語を推定し、そこから双方向にデコードするという発想が独特であったためだと思われる。文の途中からデコードすることで長距離の依存関係についてある程度ロバストになると思われ、Transformerとは異なるアプローチである点が興味深い。

このページで利用されている画像は論文から引用しています．