#215
summarized by : QIU YUE
Improving OCR-Based Image Captioning by Incorporating Geometrical Relationship

どんな論文か?

OCR-based image captioningのための新しい手法の提案。提案手法がOCR tokens間のSpatial Relationshipを扱っている。既存のベンチマークでSoTAを達成。
placeholder

新規性

手法的に新規性がある。既存のOCR-Image captioning手法がOCR tokens間の関係性を考慮していない。しかし、OCR tokens間の関係性の理解がこのタスクにおいて重要。この文章でこの関係性を扱えるモデルLSTM-Rを提案し、既存のベンチマークにおいてSoTAを達成した。

結果

既存のベンチマークTextCapsにおいてSoTAを達成し、特にCIDEr-D scoreで既存手法を大幅に上回った。

その他(なぜ通ったか?等)