#614
summarized by : Yue Qiu
A Real-Time Cross-Modality Correlation Filtering Method for Referring Expression Comprehension

どんな論文か?

Referring expressionの新たなOne-stage End-to-End学習可能なモデルRCCFを提案.RCCFはこの問題設定をcorrelation Filtering問題として,テキストを視覚ドメインにマップし,それをTemplateとし画像特徴マップでFilteringを行う.correlation マップのPeak値で物体BBOX算出.更に物体のサイズとオフセットを回帰.
placeholder

新規性

①従来の手法は主に2-stageで行う.まず物体のProposalsを導き,次のStageでTextの情報によりProposalsから物体領域を出力.この研究でReferring expressionをcorrelation Filtering問題とし,One-stageにより行える.②2-staged手法より高い精度、速い,かつbbox proposals Ground truth必要ない.

結果

①40 FPSでリアルタイムで行える;②RefClef, RefCOCO, RefCOCO+, RefCOCOgの4つのデータセットでSOTAな精度を達成.③RefClefデータセットで従来のSOTAを34.70%から63.79%まで更新.

その他(なぜ通ったか?等)

①性能が良かった.精度、RuntimeがSOTA;②手法が理解しやすい;③TrainingにBBOX ProposalsのGround Truthが必要ない.