#60
summarized by : Teppei Kurita
Not only Look, but also Listen: Learning Multimodal Violence Detection under Weak Supervision

どんな論文か?

4754本の動画(音声含む)からなる大規模な暴力データセットを公開。ここで言う暴力は「虐待」「交通事故」「爆発」「喧嘩」「暴動」「銃撃」の6種類。動画につきこれらかもしくは非暴力のラベル付けされている。
placeholder

新規性

データセットのうち2405本が暴力動画、2349本が非暴力動画。ソースはYoutubeと映画の両方。更に弱教師あり問題として、動画内のオンライン暴力検出を提案。背景情報などを利用してNNがズルするのを防ぐように、同じような背景を持つ暴力非暴力動画を収集している。

結果

音声と動画双方を使いマルチモーダル学習をさせることで暴力検出の性能が向上することを実証。

その他(なぜ通ったか?等)

難しい問題設定に対して、大規模データセットを作ることで対応した。(動機はデータセット生成の方が先なのかもしれない)