Towards Accurate Text-Based Image Captioning With Content Diversity Exploration

#242

summarized by : QIU YUE

Guanghui Xu, Shuaicheng Niu, Mingkui Tan, Yucheng Luo, Qing Du, Qi Wu

どんな論文か？

テキストが含まれるImage captioningタスクTextCapの新たな手法を提案した。画像中に複数の文字領域がある特徴から、２－Stageの手法（Stage-1：文字領域検出；Stage-2：領域ごとのCaptionを生成）を提案した。多様性があるかつ情報が豊かなCaption生成に成功。

新規性

①手法的新規性：既存のTextCap手法が主にImage captioning手法をベースにし、画像ごとに一つのGlobal Sentenceを生成する。それに対し提案手法が２－Stageにより複数のセンテンスを生成可能。②TextCapタスクに新たな視点でタスクの有用性を向上している。複数の文字領域があるものの、1つのセンテンスだけ出力設定が実用化すると不十分であって、この論文で複数生成を提案。

結果

既存のベンチマークTextCapsにおいてSoTAを達成しながら、既存手法と比べDiversityが高いCaptionsを生成できる。

その他（なぜ通ったか？等）

このページで利用されている画像は論文から引用しています．