#241
summarized by : QIUYUE
NOC-REK: Novel Object Captioning With Retrieved Vocabulary From External Knowledge

どんな論文か?

既存のNovel object captioningが物体検出モデルをベースとする物が多い。ここで、単純に物体を画像から検出するではなく、外部知識ベースから単語をRetrievalする提案をした。上記の考え方をベースに同時に外部知識から単語をRetrievalとImage Captioningを同時に一つのフレームワークで学習する手法を提案。
placeholder

新規性

画像の中から外部知識のVocabulary をRetrievalする仕組みを導入することで、Novel Captioningを行う新たな手法を提案した。提案手法は大規模なImage Captioningデータセットを用いずにExternal Knowledgeから得られるNovel物体に対して有効的にCaptioningができる。また、提案手法がEnd-to-endで行える。

結果

提案手法が有効的に外部知識を利用し、Novel 物体に対してImage Captioningできるようにした。また、提案手法が既存のベンチマークNocapsでSOTAな精度を実現した。

その他(なぜ通ったか?等)

いかにExternal KnowledgeをVision and Languageタスクに活用するかはこれからホットになりそう。