- …
- …
#299
summarized by : Hirokatsu Kataoka
新規性
画像/テキスト マルチモーダルでのイベント検出に対して特徴統合や注意機構(Attention Mechanism)によるネットワークを提案。さらに、画像側はDenseNet、テキスト側はBERTを使用、さらに双方の特徴に対して注意機構(Cross-Attention Module)を設置して設定したタスクにより90%前後の検出率を実現。
結果
提案のSSE-Cross-BERT-DenseNetを用いて、訓練とテストが同じラベル・5カテゴリ(e.g. 自動車事故、インフラ事故)において91%の精度で検出可能。画像のみだと81%、テキストのみだと84%、アテンションなしだと88%なので、画像/テキストの使用やアテンションの追加が良好であることを示した。
その他(なぜ通ったか?等)
- …
- …