#299
summarized by : Hirokatsu Kataoka
Multimodal Categorization of Crisis Events in Social Media

どんな論文か?

画像とテキストのマルチモーダルによりSNS上の危険イベント検出(e.g. 飛行機事故、デモ活動)を行う。
placeholder

新規性

画像/テキスト マルチモーダルでのイベント検出に対して特徴統合や注意機構(Attention Mechanism)によるネットワークを提案。さらに、画像側はDenseNet、テキスト側はBERTを使用、さらに双方の特徴に対して注意機構(Cross-Attention Module)を設置して設定したタスクにより90%前後の検出率を実現。

結果

提案のSSE-Cross-BERT-DenseNetを用いて、訓練とテストが同じラベル・5カテゴリ(e.g. 自動車事故、インフラ事故)において91%の精度で検出可能。画像のみだと81%、テキストのみだと84%、アテンションなしだと88%なので、画像/テキストの使用やアテンションの追加が良好であることを示した。

その他(なぜ通ったか?等)