summarized by : taichi murayama
Improving Multimodal Named Entity Recognition via Entity Span Detection with Unified Multimodal Transformer

概要

SNS上の投稿に対してMultimodal Named Entity Recognition (MNER)のタスクを取り組むためのモデルを提案. 既存のモデルではテキストのコンテキスト情報をうまく取得できていなかったり,視覚情報によるバイアスを除去できていないといった問題が存在したが、Attentinon-basedによる補助タスクを取り入れたモデルによってこれらの問題を解決. 2つのベンチマークでbest performanceを達成
placeholder

新規性

提案モデルでは,BERTなどのモデルを用いてテキストのコンテキスト情報を獲得し,AttentionをベースとしたMultimodal interaction moduleを提案することで視覚情報とテキスト情報の相互的な関係を獲得できるモジュールを導入. 更に,テキスト-basedのNamed Entity Recognitionタスクを補助タスクと設定することで,視覚情報によるバイアスを除去するモデルとなっている.

結果

2つのベンチマーク (Twitter-15,Twitter-17)で他の手法と比較してbest performanceを達成.BERTの効果や,本モデルで提案したText-basedのNERを補助タスクとしたモジュールが特に効果的であったことがわかった.