#224
summarized by : QIUYUE
Visual Abductive Reasoning

どんな論文か?

Abductive reasoning(部分的な観測から最も可能な解釈をする)は重要だが、あまり検討されていない。ここで新しいタスクとデータセットVisual Abductive Reasoningを提案。このタスクではビデオ(複数イベント)からキャプションを生成(観測と推測の両方)。また、提案データセットと既存のVideo Captioningタスクで高い精度を得たTransformerも提案。
placeholder

新規性

まず、Abductive Reasoningが人間の知能において重要だが、CVではあまり検討されてこなかった。この論文でAbductive Reasoningを検討可能にするためのタスクとデータセットを提案。さらに、前後関係を考慮したDirectionalなポジションエンベーディングとCascadedなデコーダーから構成されるTransformerを提案し、高い性能を実現した。

結果

提案のタスクにおいて、いくつかの既存のSOTAなVIdeo Captioning手法より、提案手法が最も良い性能を出した。また、既存のVideo Captioningベンチマークで提案手法も高い精度を達成。また、Abductive Reasoningにおいて提案手法を含めた手法が人間の精度との差が大きいため、提案タスクで今後の挑戦する余地が残っている。

その他(なぜ通ったか?等)