- …
- …
#241
summarized by : QIUYUE
どんな論文か?
既存のNovel object captioningが物体検出モデルをベースとする物が多い。ここで、単純に物体を画像から検出するではなく、外部知識ベースから単語をRetrievalする提案をした。上記の考え方をベースに同時に外部知識から単語をRetrievalとImage Captioningを同時に一つのフレームワークで学習する手法を提案。
新規性
画像の中から外部知識のVocabulary をRetrievalする仕組みを導入することで、Novel Captioningを行う新たな手法を提案した。提案手法は大規模なImage Captioningデータセットを用いずにExternal Knowledgeから得られるNovel物体に対して有効的にCaptioningができる。また、提案手法がEnd-to-endで行える。
結果
提案手法が有効的に外部知識を利用し、Novel 物体に対してImage Captioningできるようにした。また、提案手法が既存のベンチマークNocapsでSOTAな精度を実現した。
その他(なぜ通ったか?等)
いかにExternal KnowledgeをVision and Languageタスクに活用するかはこれからホットになりそう。
- …
- …