Improving OCR-Based Image Captioning by Incorporating Geometrical Relationship

#215

summarized by : QIU YUE

Jing Wang, Jinhui Tang, Mingkun Yang, Xiang Bai, Jiebo Luo

OCR-based image captioningのための新しい手法の提案。提案手法がOCR tokens間のSpatial Relationshipを扱っている。既存のベンチマークでSoTAを達成。

手法的に新規性がある。既存のOCR-Image captioning手法がOCR tokens間の関係性を考慮していない。しかし、OCR tokens間の関係性の理解がこのタスクにおいて重要。この文章でこの関係性を扱えるモデルLSTM-Rを提案し、既存のベンチマークにおいてSoTAを達成した。

既存のベンチマークTextCapsにおいてSoTAを達成し、特にCIDEr-D scoreで既存手法を大幅に上回った。

このページで利用されている画像は論文から引用しています．