#9
summarized by : 飯田啄巳
MDETR - Modulated Detection for End-to-End Multi-Modal Understanding

どんな論文か?

DETRをベースとしたマルチモーダルな物体検出モデルを構築した。CLEVRなどの合成データやFlickr30kやRefCOCOシリーズ、Visual Genomeなどを組み合わせてReferring Expression Comprehension/SegmentationやPhrase Groundingに利用可能な事前学習モデルを構築した。
placeholder

新規性

DETRをマルチモーダル物体検出に利用したこと。また、学習法に2点工夫 1. ソフトトークン出力を使って、同じ参照表現が複数の物体を表している場合などを考慮している。 2. 対比アラインメント損失を提案し、画像ー言語の特徴空間のアラインメントを行っている。 ソフトトークンでは、物体ーテキストの位置。対比アラインメント損失では、画像ー言語特徴のアラインメントを行う役割を分けている。

結果

RefCOCOシリーズでのREC、PhraseCutでのRESのダウンストリームタスクを行い、それぞれSoTAを達成。

その他(なぜ通ったか?等)

性能面で、他のモデルを圧倒し、かつダウンストリームタスクの実験項目が多く、事前学習モデルの汎用性が細かく記されている。