ViSTA: Vision and Scene Text Aggregation for Cross-Modal Retrieval

#308

summarized by : QIUYUE

Mengjun Cheng; Yipeng Sun; Longchao Wang; Xiongwei Zhu; Kun Yao; Jie Chen; Guoli Song; Junyu Han; Jingtuo Liu; Errui Ding; Jingdong Wang

どんな論文か？

画像の中に含まれるテキスト情報が重要な場面がある（看板上の文字）。既存のCross-modal retrieval手法では画像とRetrievalのセンテンスの関係のみ考える。ここで、画像、画像中のテキスト、センテンスの関係全て考慮し学習する手法を提案。具体的に、提案手法がFullTransformer構造となり、直接画像パッチと画像中のテキスト、Retrievalのセンテンス間の関係性を学習。

新規性

まず、Cross-modal Retrievalタスクで、画像とRetrieval用のセンテンスのみならず、画像中に含まれるテキスト情報も同時に明示的に考慮するアイデアが新しい。また、上記のための新規なFull-transformerベースの手法やも提案。また、画像とテキスト、Retrieval用テキスト（画像説明文）と画像中のテキストの関係性学習の対比学習ロスも提案。

結果

Scene Text aware retrievalタスクで提案手法が既存手法より+8.4\%の性能向上を実現した。また、Flicker30KやMSCOCOでのScene Text free Cross-modal retrievalにおいてSOTAな精度を達成した。

その他（なぜ通ったか？等）

Textがない画像に対しても、提案手法では性能を向上できるところが面白い。

このページで利用されている画像は論文から引用しています．