Context-Aware Group Captioning via Self-Attention and Contrastive Features

#694

summarized by : Seitaro Shinagawa

Zhuowan Li, Quan Tran, Long Mai, Zhe Lin, Alan L. Yuille

どんな論文か？

選択した複数の画像群からキャプションを生成する新しいタスクgroup captioningを提案した。2種類のsingle captionデータセットからscene-graphを利用してデータセットを構築し、self-attentionベースで複数の画像の特徴量を集約すしてLSTMでキャプションする方法を提案した。

新規性

image-captioningをマルチソースのcaptioningに拡張した点が新しい。

結果

image-captioningで用いられるCIDErをはじめとした7種類の評価指標について、構築した2つのデータセットを用いて有効性を確認した。単純なaverage poolingをする場合よりもself-attentionを使った場合の方が良い結果となった。

その他（なぜ通ったか？等）

新しいタスクを提案した点、それに合わせたデータセットを構築した点、有効な提案手法を考案した点が評価されたと考えられる。

このページで利用されている画像は論文から引用しています．