NOC-REK: Novel Object Captioning With Retrieved Vocabulary From External Knowledge

#241

summarized by : QIUYUE

Duc Minh Vo; Hong Chen; Akihiro Sugimoto; Hideki Nakayama

どんな論文か？

既存のNovel object captioningが物体検出モデルをベースとする物が多い。ここで、単純に物体を画像から検出するではなく、外部知識ベースから単語をRetrievalする提案をした。上記の考え方をベースに同時に外部知識から単語をRetrievalとImage Captioningを同時に一つのフレームワークで学習する手法を提案。

新規性

画像の中から外部知識のVocabulary をRetrievalする仕組みを導入することで、Novel Captioningを行う新たな手法を提案した。提案手法は大規模なImage Captioningデータセットを用いずにExternal Knowledgeから得られるNovel物体に対して有効的にCaptioningができる。また、提案手法がEnd-to-endで行える。

結果

提案手法が有効的に外部知識を利用し、Novel 物体に対してImage Captioningできるようにした。また、提案手法が既存のベンチマークNocapsでSOTAな精度を実現した。

その他（なぜ通ったか？等）

いかにExternal KnowledgeをVision and Languageタスクに活用するかはこれからホットになりそう。

このページで利用されている画像は論文から引用しています．