Visual Abductive Reasoning

#224

summarized by : QIUYUE

Chen Liang; Wenguan Wang; Tianfei Zhou; Yi Yang

どんな論文か？

Abductive reasoning(部分的な観測から最も可能な解釈をする)は重要だが、あまり検討されていない。ここで新しいタスクとデータセットVisual Abductive Reasoningを提案。このタスクではビデオ（複数イベント）からキャプションを生成（観測と推測の両方）。また、提案データセットと既存のVideo Captioningタスクで高い精度を得たTransformerも提案。

新規性

まず、Abductive Reasoningが人間の知能において重要だが、CVではあまり検討されてこなかった。この論文でAbductive Reasoningを検討可能にするためのタスクとデータセットを提案。さらに、前後関係を考慮したDirectionalなポジションエンベーディングとCascadedなデコーダーから構成されるTransformerを提案し、高い性能を実現した。

結果

提案のタスクにおいて、いくつかの既存のSOTAなVIdeo Captioning手法より、提案手法が最も良い性能を出した。また、既存のVideo Captioningベンチマークで提案手法も高い精度を達成。また、Abductive Reasoningにおいて提案手法を含めた手法が人間の精度との差が大きいため、提案タスクで今後の挑戦する余地が残っている。

その他（なぜ通ったか？等）

このページで利用されている画像は論文から引用しています．