Multimodal Categorization of Crisis Events in Social Media

#299

summarized by : Hirokatsu Kataoka

Mahdi Abavisani, Liwei Wu, Shengli Hu, Joel Tetreault, Alejandro Jaimes

どんな論文か？

画像とテキストのマルチモーダルによりSNS上の危険イベント検出（e.g. 飛行機事故、デモ活動）を行う。

新規性

画像/テキストマルチモーダルでのイベント検出に対して特徴統合や注意機構（Attention Mechanism）によるネットワークを提案。さらに、画像側はDenseNet、テキスト側はBERTを使用、さらに双方の特徴に対して注意機構（Cross-Attention Module）を設置して設定したタスクにより90%前後の検出率を実現。

結果

提案のSSE-Cross-BERT-DenseNetを用いて、訓練とテストが同じラベル・5カテゴリ（e.g. 自動車事故、インフラ事故）において91%の精度で検出可能。画像のみだと81%、テキストのみだと84%、アテンションなしだと88%なので、画像/テキストの使用やアテンションの追加が良好であることを示した。

その他（なぜ通ったか？等）

このページで利用されている画像は論文から引用しています．