#394
summarized by : Shintaro Yamamoto
MIST: Multiple Instance Spatial Transformer

どんな論文か?

物体検出など複数インスタンスを扱うタスクでは,上位の候補を選択するプロセスが微分不可能なためニューラルネットの学習に組み込むことができない.そこで,Multiple Instance Spatial Transformer(MIST)というモデルを提案する.
placeholder

新規性

まず,候補領域を示すヒートマップを生成する.ヒートマップが極大値を取る箇所がインスタンスの候補領域に対応する.ヒートマップの極値を基に画像パッチを抜き出し,ダウンストリームタスクのモデルに与えていく.

結果

複数インスタンスが写っている画像に対するreconstructionとclassificationの実験を行い,いずれも従来手法を上回る性能を確認した.

その他(なぜ通ったか?等)

githubへのリンク(https://github.com/ubc-vision/mist)は存在するが,7/8時点で未公開