#157
summarized by : Shingo Nakazawa
PACS: A Dataset for Physical Audiovisual Commonsense Reasoning

どんな論文か?

物理的常識の推論のためのデータセットPhysical Audiovisual CommonSense (PACS) を提案。物理的特性は光や音など複数のモダリティの融合として現れるため、その推論は基本的にマルチモーダルなタスクである。本論文が提案するPACSデータセットには視覚情報と聴覚情報、さらに動画を用いた時間情報が含まれており、分野の進歩へのPACSがなしうる貢献と今後の研究の方向性を議論。
placeholder

新規性

PACSデータセットには13,400の質問と回答のペアが含まれる。加えて、そこに含まれるオブジェクトを含む1,526のビデオと、様々な物理的性質に関与する1,377の物理的常識の質問を含む。視覚情報だけでなく音声情報も含めることで、物理的特性の推論というマルチモーダルな問題にアプローチできうるベンチマークデータセットとして整備した。

結果

PACSを用いて、物理的常識のQ&A問題に対して複数の最新モデルを評価した。多くのモデルは正答率 (Accuracy) 50%程度、良いもので70%程度であり、いずれも人間のレベル (95%) には及ばなかった。これまで本課題に使われてきたデータセットよりも機械と人のギャップが大きく、PACSが課すタスクの難しさを表していると考えられている。

その他(なぜ通ったか?等)

PACSデータセットはこちらからダウンロード可 → https://github.com/samuelyu2002/pacs