- …
- …
#614
summarized by : Yue Qiu
どんな論文か?
Referring expressionの新たなOne-stage End-to-End学習可能なモデルRCCFを提案.RCCFはこの問題設定をcorrelation Filtering問題として,テキストを視覚ドメインにマップし,それをTemplateとし画像特徴マップでFilteringを行う.correlation マップのPeak値で物体BBOX算出.更に物体のサイズとオフセットを回帰.
新規性
①従来の手法は主に2-stageで行う.まず物体のProposalsを導き,次のStageでTextの情報によりProposalsから物体領域を出力.この研究でReferring expressionをcorrelation Filtering問題とし,One-stageにより行える.②2-staged手法より高い精度、速い,かつbbox proposals Ground truth必要ない.
結果
①40 FPSでリアルタイムで行える;②RefClef, RefCOCO, RefCOCO+, RefCOCOgの4つのデータセットでSOTAな精度を達成.③RefClefデータセットで従来のSOTAを34.70%から63.79%まで更新.
その他(なぜ通ったか?等)
①性能が良かった.精度、RuntimeがSOTA;②手法が理解しやすい;③TrainingにBBOX ProposalsのGround Truthが必要ない.
- …
- …