#39
summarized by : Tasuku KINJO
Transformation Driven Visual Reasoning

どんな論文か?

これまでの視覚的推論のタスクは静的であると主張し、物体や状態の動的な変化を推論するTVRタスクを提案。タスクは2つの画像の違いを推論するBasic、複数の変換とその順序を推論するEvent、カメラの方向が変わるViewの3つのタスクで構成される。CGによるデータセット(CLEVRの拡張)を用いて既存の深層学習モデルがTVRタスクをどれだけ推論できるかを検証している
placeholder

新規性

これまでの視覚的推論タスクは、状態の変化がない、または状態が変化する場合も変化が複雑で明確じゃないと主張し、明示的に定義された位置や状態の変化を複数ステップで構成するタスクを提案

結果

既存の深層学習モデルをTranceNetと呼ぶフレームワークを用いた上でTVRタスクに適用したうえで、人間の推論と性能を比較している。Eventタスクについて1ステップなら深層学習モデルは人間並の性能で推論を行えるが、ステップが増えていく度に急激に性能が落ちていくことを示しタスクの必要性を主張している。また、変化を検出できても、その変化の順序についてはうまく推論できていないことを実験で示している

その他(なぜ通ったか?等)

プロジェクトページ:https://hongxin2019.github.io/TVR/