#273
summarized by : SohOhara
Multimodal Explanations by Predicting Counterfactuality in Videos

どんな論文か?

動画の分類を行った際、何故他のクラスに分類されなかったのかを動画内の画像の切り抜きと言語によって説明したというもの。 分類器は事前学習されたものを用いており、各クラスごとのpositive、negative両方の確率を計算することで手法の定量化を図っている。画像の切り抜きの際にはmaximum subpath poolingと呼ばれる新しいプーリング手法を使っている。
placeholder

新規性

動画の分類の説明を行う際、反証をするような説明を作成することを明確に定義して研究を行った研究は今まで存在していなかった。 反証性を明確に定量化して評価している点で新規性がある。

結果

16種のオリンピック競技の動画のデータセットであるOlympic Sportsと24種類の行動の動画を収録しているUCF101-24 データセットを用いて実験を行った。 いずれもbaselineの手法を超える結果となった。

その他(なぜ通ったか?等)