#389
summarized by : Yusuke Mori
Episodic Memory Question Answering

どんな論文か?

ウェアラブルグラスなどの AR デバイスは、装着者の移動により取得する情報が変化する。人間はデバイスの補助を受けたいとき、「最後に鍵を見たのはどこか」などの問い掛けをすることが想定される。本論文は、このような一人称視点のパーソナル AI アシスタントを目的とした、3D環境での質問応答タスクについての取り組みであり、視覚情報の意味論的な特徴表現をエピソード記憶として構築するモデルを提案している。
placeholder

新規性

Episodic Memory Question Answering (EMQA) というタスクを提案している。このタスクは従来の Embodied Question Answering (EQA) とは以下の点で異なっている。ナビゲーションの結果としての視覚情報を用いるEQAと異なり、EMQA は装着者の行動に応じてより多様な情報を扱う必要があり、また、多様な質問に対応できなくてはいけない。

結果

提案手法は、temporal 情報を使わないものも、使うものも、従来手法や、temporal 情報を提案手法以外の方法で扱ったものを上回る性能を示した。また、提案手法 において temporal 情報が、時系列が重要な質問において有用であることも確認された。

その他(なぜ通ったか?等)

Scene memory representation と Question-answering を組み合わせたタスクとして、応用を明確に示した新規タスクを提案しており、従来タスクとの違いも明確である。データセット作成と手法の提案に加え、temporal 情報が重要かどうかの ablation study や、他の条件のデータへの適用など、豊富な実験が行われている。