#454
summarized by : Hiroki Ohashi
Detecting Attended Visual Targets in Video

どんな論文か?

映像データ中に映っているある人物が、そのシーンの中でどこを見ているかを推定する手法を提案し、そのための新規のデータセットVideoAttentionTargetを公開。対象人物の頭部をエンコードした特徴量を用いて当該シーンに対するattention mapを作成し、さらにそれをconvLSTMによってエンコードすることによって、時系列情報も組み込んだ形で推定が可能。
placeholder

新規性

対象シーンと対象人物の頭部との空間的な関係性とその時系列的な変化をモデリングするアーキテクチャと、評価のための新規のデータセット。

結果

新規で公開したデータセットを含め、評価を行った3つのデータセット全てでSoTAを達成。一方、自閉症の診断シーンへの応用例ではベースラインの手法は上回ったものの、人間の専門家との間にはまだギャップがあることも分かった。

その他(なぜ通ったか?等)

問題設定は新規ではなく手法もややインクリメンタルではあるが、精度としてはしっかりと既存手法を上回っていること、新規データセットを公開していること、そしてよくわるベンチマークに加えて、自閉症の診断シーンへの応用例など実世界における具体的なシーンにおける手法の有効性を検証していること、などから採択に至ったのではないか。