#6
summarized by : Tsubura Kazuki
Dance With Flow: Two-In-One Stream Action Detection

どんな論文か?

動画における人物の行動を時空間的に検出することが目的.この時点で最先端の手法はRGB画像とオプティカルフロー画像の2ストリームアーキテクチャを採用しているが,膨大なモデルサイズと,多大な計算量という課題が残っている.これに対応するために,RGB画像とオプティカルフロー画像を,持つ単一のストリームに埋め込む(2in1ストリーム)ことを提案.オプティカルフローを条件とした外観特徴を学習する.
placeholder

新規性

単一のフレームでRGB画像とオプティカルフロー画像を処理するために,レイヤー(MCレイヤー,M2レイヤー)を追加する.MCレイヤーでは,フロー画像から単純な特徴マップを生成.M2レイヤーは,フロー特徴を基に動き領域を重みづけし,アフィン変換パラメータを外観ネットワークに適用する.

結果

実験では2in1ストリームと,2in1ストリームにフロー画像用のストリームを用意したTwo-in-One Twoストリームを比較している.UCF101-24での行動検出と,UCF101での行動識別の精度を検証している.結果的にはTwo-in-One Twoストリームがどちらにおいても最も高い精度を実現した.

その他(なぜ通ったか?等)

Two-in-Oneストリームを提案しているが,結局フロー画像のストリームを追加しており,それはTwoストリームと同じなのではないかと疑問が残る.