#242
summarized by : QIU YUE
Towards Accurate Text-Based Image Captioning With Content Diversity Exploration

どんな論文か?

テキストが含まれるImage captioningタスクTextCapの新たな手法を提案した。画像中に複数の文字領域がある特徴から、2-Stageの手法(Stage-1:文字領域検出;Stage-2:領域ごとのCaptionを生成)を提案した。多様性があるかつ情報が豊かなCaption生成に成功。
placeholder

新規性

①手法的新規性:既存のTextCap手法が主にImage captioning手法をベースにし、画像ごとに一つのGlobal Sentenceを生成する。それに対し提案手法が2-Stageにより複数のセンテンスを生成可能。②TextCapタスクに新たな視点でタスクの有用性を向上している。複数の文字領域があるものの、1つのセンテンスだけ出力設定が実用化すると不十分であって、この論文で複数生成を提案。

結果

既存のベンチマークTextCapsにおいてSoTAを達成しながら、既存手法と比べDiversityが高いCaptionsを生成できる。

その他(なぜ通ったか?等)