summarized by : GOTO Keita
Lin Song, Shiwei Zhang, Gang Yu, Hongbin Sun
従来の時空間行動認識において、主な誤差の原因は行動の前後に存在する曖昧な状態("transitional state")であった。この曖昧な状態の判定をモデルに組み込むことで精度を向上させる。また、動画特徴量の抽出にはBi-ConvLSTMを用いている。
曖昧な状態を検知して意図的に省くモデルを構築している。Bi-ConvLSTMの採用。
UCF101-24においてSOTA、J-MHDBにおいて従来のSOTAと同等の精度が得られた。