#54
summarized by : Shintaro Yamamoto
Thinking Fast and Slow: Efficient Text-to-Visual Retrieval With Transformers

どんな論文か?

Textからの画像検索タスクでは,テキストと画像を別のEncoderで処理するDual Encoderと1つのモデルで処理するCross-Attentionの2つのアプローチが存在する.Dual Encoderは計算速度が速い一方で,Cross-Attentionの方が性能が高いというトレードオフの関係になっている.そこで,2つのアプローチを組み合わせることで計算速度と性能の両立を目指す.
placeholder

新規性

計算速度に関しては,始めにDual Encoderでランク付けして上位のサンプルのみをCross-Attentionで処理することで,計算が遅いCross-Attentionの処理時間を減らす.性能に関しては,学習時にCross-Attentionを教師,Dual Encoderを生徒として知識蒸留を利用することで,Dual Encoderの性能向上を行う.

結果

実験を通じて知識蒸留によって性能が向上することや,計算速度が改善されていることを確認した.また,画像だけでなく動画の検索にも応用可能であることを実験により確認した.

その他(なぜ通ったか?等)

提案手法の各要素の効果について検証がしっかりされており,手法に対する説得力が強い.