#145
summarized by : Masanori YANO
Describing and Localizing Multiple Changes With Transformers

どんな論文か?

画像のペアに含まれる変化を文章で回答するタスクを複数の変化に拡張し、Transformerを組み込んだ手法で評価した論文。
placeholder

新規性

レンダリング画像で合成データセットを生成するCLEVRをベースとして、変化の箇所を1個から4個の範囲に拡張したCLEVR-Multi-Changeデータセットを構築した。加えて、双方の画像の特徴抽出に対するエンコーダ及びデコーダにTransformerを適用した手法を提案した。

結果

CLEVR-Multi-Changeデータセットで評価を行い、従来手法を上回る結果。Spot-the-DiffデータセットやCLEVR-Changeデータセットによる評価でも、従来手法と同等以上の結果。

その他(なぜ通ったか?等)

可視化を含めた分析結果と、性能面の優位性で通ったと考えられる。cvpaper.challengeの論文で、プロジェクトページ( https://cvpaperchallenge.github.io/Describing-and-Localizing-Multiple-Change-with-Transformers/ )が公開されている。