COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for Cross-Modal Retrieval

#439

summarized by : Naoto Shirai

Haoyu Lu; Nanyi Fei; Yuqi Huo; Yizhao Gao; Zhiwu Lu; Ji-Rong Wen

どんな論文か？

画像テキスト検索タスクでCOTSと呼ばれる新しい2ストリームVision-Language Pre-training(VLP)モデルを提案している。

新規性

シングルストリームモデルのような高パフォーマンスの実現と2ストリームモデルの推論効率という利点を維持した2ストリームVLPモデル(COTS)を提案。パフォーマンス向上のためにインスタンスレベルだけではなく、トークンレベル、タスクレベルで画像とテキストの相互関係を強化している。また、ノイズの多い画像とテキストのペアを適応的にフィルタリングする手法を提案している。

結果

COTSは他の2ストリーム方式の中で最高のパフォーマンスを達成し、最新のシングルストリーム方式と同等のパフォーマンス（ただし、推論では10,800倍高速）を実現した。また、COTSはテキストからビデオへの検索にも適用可能である。

その他（なぜ通ったか？等）

このページで利用されている画像は論文から引用しています．