Attention-Based Context Aware Reasoning for Situation Recognition

#747

summarized by : Seitaro Shinagawa

Thilini Cooray, Ngai-Man Cheung, Wei Lu

どんな論文か？

シーングラフの拡張に役立つ状況認識タスクにおいて、VQAのようにクエリに対する回答を行うモデルを提案。このタスクではクエリ間の関係性がVQAよりも重要であり、VQAのようなクエリベースの方法は検討されてこなかったが、本研究ではクエリ間の関係性をattentionベースで周辺のクエリから捉え、クエリのembeddingを更新してから回答するモデルを提案し、性能向上を確認した。

新規性

先行研究ではRNNやGNNを使ってクエリ間の関係性を捉えていたのに対して、クエリベースの手法ではクエリ間の関係性を捉える構造が明示的に入っていないため性能に難があったが、attentionベースで計算してクエリのembeddingを更新するContext Aware Queryモジュールを導入したことでクエリベースの手法の性能を向上させることに成功した点が新しい。

結果

imSituデータセットを用いて正解率を5つのベースライン手法と比較し、CAQを用いた提案モデルの優位性を確認した。クエリ間の関係性を捉える手法として他にも2種類の方法を提案しているが、CAQを単独で用いた方が性能が良いという結果になった。

その他（なぜ通ったか？等）

クエリ間の関係性を捉える話はVQAにも応用が効きそうである。

このページで利用されている画像は論文から引用しています．