MIST: Multiple Instance Spatial Transformer

#394

summarized by : Shintaro Yamamoto

Baptiste Angles, Yuhe Jin, Simon Kornblith, Andrea Tagliasacchi, Kwang Moo Yi

物体検出など複数インスタンスを扱うタスクでは，上位の候補を選択するプロセスが微分不可能なためニューラルネットの学習に組み込むことができない．そこで，Multiple Instance Spatial Transformer(MIST)というモデルを提案する．

まず，候補領域を示すヒートマップを生成する．ヒートマップが極大値を取る箇所がインスタンスの候補領域に対応する．ヒートマップの極値を基に画像パッチを抜き出し，ダウンストリームタスクのモデルに与えていく．

複数インスタンスが写っている画像に対するreconstructionとclassificationの実験を行い，いずれも従来手法を上回る性能を確認した．

githubへのリンク(https://github.com/ubc-vision/mist)は存在するが，7/8時点で未公開

このページで利用されている画像は論文から引用しています．