Iterative Shrinking for Referring Expression Grounding Using Deep Reinforcement Learning

#20

summarized by : Seitaro Shinagawa

Mingjie Sun, Jimin Xiao, Eng Gee Lim

どんな論文か？

画像中の複数物体の中から、入力文に沿った物体を検出するReferring expressionを、既存の出来合いの物体検出器に頼ることなく行う強化学習ベースの新しい方法を提案。

新規性

既存の方法では決め打ちの特徴点を選び、この特徴点を中心とした矩形を別途予測していたが、本研究では予測の矩形を縦横方向に徐々に縮小する操作を強化学習のactionとして定義し、強化学習によって学習させた。

結果

RefCOCOgデータセットにおいて4.32%精度が向上

その他（なぜ通ったか？等）

物体検出の矩形を強化学習で操作するアイデアは強力で面白い。実際、純粋な物体検出タスクで非常に似たアプローチの先行研究がある（Active Object Localization [Caicedo+, ICCV2015]）こちらはDeep Q Networkで、本研究はActor-criticである点は異なる。また、入力文がある点もことなるが、本論文では引用すらないのが疑問に残る。

このページで利用されている画像は論文から引用しています．