MIST: Multiple Instance Self-Training Framework for Video Anomaly Detection

#351

summarized by : Ryo Nakamura

Jia-Chang Feng, Fa-Ting Hong, Wei-Shi Zheng

どんな論文か？

動画における異常検知タスクの問題では，異常な動画が少ないことから，異常な行動を高性能で認識するための異常な行動表現が不足している．そこで本研究ではMultiple Instace Self-Training Framework（MIST）を提案．stage1でクリップレベルの疑似ラベルを生成し，stage2でアクティベーションMapを計算するL_2とそのマップで情報を抽出したL_1で分類する

新規性

従来手法より，異常検知の精度が向上した点とStage1，Stage2で学習されるSelf-training のフレームワーク(手法としての新しさ)が新規性だと思う．細かい手法は，それぞれ提案されているが，それぞれを組み合わせて結果が出たところが評価されていると感じる．

結果

UCF-Crime Dataset(犯罪行動のデータ)とShanghaiTech(歩行者が正常，それ以外が異常のデータ)において比較を行い，ShanghaiTechではフレームレベつのAUC94.83%を達成した．定量的評価以外にもactivation mapsを可視化して，異常検知をするために必要な特徴を訂正的に確認している．その他にもフレームでどこが異常であるのかを可視化している．

その他（なぜ通ったか？等）

フレームワークは今回，ビデオの異常検知に使われたが，フレームレベルで何かをローカライズしたい．ビデオのハイライトを作りたい時には使用できる手法であるため，その汎用性の高さから評価されたと感じる．また，汎用性の高さを主張するために，様々な実験が行われている．

このページで利用されている画像は論文から引用しています．