EmotiCon: Context-Aware Multimodal Emotion Recognition Using Frege's Principle

#693

summarized by : Seitaro Shinagawa

Trisha Mittal, Pooja Guhan, Uttaran Bhattacharya, Rohan Chandra, Aniket Bera, Dinesh Manocha

動画・画像中の人のマルチモーダル感情認識において、映っている人間同士の関係性からも感情が変化することに着目し、従来の表情やポーズ情報に加えて深度情報も加えることで感情認識の性能を向上させた。また、より自然なデータセットGroupWalkを新たに提案し、提案手法の有効性を示した。

従来のマルチモーダル感情認識に深度情報を加えた点。また、このタスクに用いられてきたEMOTICをより自然な状況設定にしたデータセットとしてGroupWalkというデータセットを新たに提案した点が新しい。

おおむね全てのラベルについて正解率の向上が確認された。Ablation studyでも深度情報を使う方が優位であることが確認された。

このタスクに深度情報を使う発想は意外と思いつかなさそうであり、まだ謎な部分があるが、性能はしっかり向上しているので面白い結果だと思われる。新しいデータセットを提案している点も評価されたのかと思われる。

このページで利用されている画像は論文から引用しています．