Not only Look, but also Listen: Learning Multimodal Violence Detection under Weak Supervision

#60

summarized by : Teppei Kurita

Peng Wu, Jing Liu, Yujia Shi, Yujia Sun, Fangtao Shao, Zhaoyang Wu , Zhiwei Yang

4754本の動画(音声含む)からなる大規模な暴力データセットを公開。ここで言う暴力は「虐待」「交通事故」「爆発」「喧嘩」「暴動」「銃撃」の6種類。動画につきこれらかもしくは非暴力のラベル付けされている。

データセットのうち2405本が暴力動画、2349本が非暴力動画。ソースはYoutubeと映画の両方。更に弱教師あり問題として、動画内のオンライン暴力検出を提案。背景情報などを利用してNNがズルするのを防ぐように、同じような背景を持つ暴力非暴力動画を収集している。

音声と動画双方を使いマルチモーダル学習をさせることで暴力検出の性能が向上することを実証。

難しい問題設定に対して、大規模データセットを作ることで対応した。（動機はデータセット生成の方が先なのかもしれない）

このページで利用されている画像は論文から引用しています．