- …
- …
#9
summarized by : 飯田啄巳
どんな論文か?
DETRをベースとしたマルチモーダルな物体検出モデルを構築した。CLEVRなどの合成データやFlickr30kやRefCOCOシリーズ、Visual Genomeなどを組み合わせてReferring Expression Comprehension/SegmentationやPhrase Groundingに利用可能な事前学習モデルを構築した。
新規性
DETRをマルチモーダル物体検出に利用したこと。また、学習法に2点工夫
1. ソフトトークン出力を使って、同じ参照表現が複数の物体を表している場合などを考慮している。
2. 対比アラインメント損失を提案し、画像ー言語の特徴空間のアラインメントを行っている。
ソフトトークンでは、物体ーテキストの位置。対比アラインメント損失では、画像ー言語特徴のアラインメントを行う役割を分けている。
結果
RefCOCOシリーズでのREC、PhraseCutでのRESのダウンストリームタスクを行い、それぞれSoTAを達成。
その他(なぜ通ったか?等)
性能面で、他のモデルを圧倒し、かつダウンストリームタスクの実験項目が多く、事前学習モデルの汎用性が細かく記されている。
- …
- …