Fast, Diverse and Accurate Image Captioning Guided by Part-Of-Speech

#798

summarized by : Katsuya Shimabukuro

Aditya Deshpande, Jyoti Aneja, Liwei Wang, Alexander G. Schwing, David Forsyth

どんな論文か？

画像からキャプションを生成するタスクで、画像から複数のPOSタグのシーケンスを予測し、その情報をもとにキャプションを生成することにより、多様で精度の高いキャプションを既存手法より高速に生成する手法を提案した。

新規性

画像から推測したPOSタグシーケンスと、画像のフィーチャーマップ、オブジェクト検出器を元に生成したオブジェクトベクトルを入力として、キャプションを生成する。複数種類のPOSタグシーケンスを元にキャプションを生成することにより、時間のかかるビームサーチなしでキャプションを生成することができ、多様性も担保しやすい。

結果

MS COCOベンチマークで、既存のビームサーチベースの手法と比較して、同等の精度で7倍近く高速にキャプションを生成できることを示した。また、多様性の面でも既存手法を上回る生成が行えることを示した。

その他（なぜ通ったか？等）

このページで利用されている画像は論文から引用しています．