A Real-Time Cross-Modality Correlation Filtering Method for Referring Expression Comprehension

#614

summarized by : Yue Qiu

Yue Liao, Si Liu, Guanbin Li, Fei Wang, Yanjie Chen, Chen Qian, Bo Li

どんな論文か？

Referring expressionの新たなOne-stage End-to-End学習可能なモデルRCCFを提案．RCCFはこの問題設定をcorrelation Filtering問題として，テキストを視覚ドメインにマップし，それをTemplateとし画像特徴マップでFilteringを行う．correlation マップのPeak値で物体BBOX算出．更に物体のサイズとオフセットを回帰．

新規性

①従来の手法は主に2-stageで行う．まず物体のProposalsを導き，次のStageでTextの情報によりProposalsから物体領域を出力．この研究でReferring expressionをcorrelation Filtering問題とし，One-stageにより行える．②2-staged手法より高い精度、速い，かつbbox proposals Ground truth必要ない．

結果

①40 FPSでリアルタイムで行える；②RefClef, RefCOCO, RefCOCO+, RefCOCOgの4つのデータセットでSOTAな精度を達成．③RefClefデータセットで従来のSOTAを34.70%から63.79%まで更新．

その他（なぜ通ったか？等）

①性能が良かった．精度、RuntimeがSOTA；②手法が理解しやすい；③TrainingにBBOX ProposalsのGround Truthが必要ない．

このページで利用されている画像は論文から引用しています．