#439
summarized by : Naoto Shirai
COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for Cross-Modal Retrieval

どんな論文か?

画像テキスト検索タスクでCOTSと呼ばれる新しい2ストリームVision-Language Pre-training(VLP)モデルを提案している。
placeholder

新規性

シングルストリームモデルのような高パフォーマンスの実現と2ストリームモデルの推論効率という利点を維持した2ストリームVLPモデル(COTS)を提案。パフォーマンス向上のためにインスタンスレベルだけではなく、トークンレベル、タスクレベルで画像とテキストの相互関係を強化している。また、ノイズの多い画像とテキストのペアを適応的にフィルタリングする手法を提案している。

結果

COTSは他の2ストリーム方式の中で最高のパフォーマンスを達成し、最新のシングルストリーム方式と同等のパフォーマンス(ただし、推論では10,800倍高速)を実現した。また、COTSはテキストからビデオへの検索にも適用可能である。

その他(なぜ通ったか?等)