Transformation Driven Visual Reasoning

#39

summarized by : Tasuku KINJO

Xin Hong, Yanyan Lan, Liang Pang, Jiafeng Guo, Xueqi Cheng

どんな論文か？

これまでの視覚的推論のタスクは静的であると主張し、物体や状態の動的な変化を推論するTVRタスクを提案。タスクは2つの画像の違いを推論するBasic、複数の変換とその順序を推論するEvent、カメラの方向が変わるViewの３つのタスクで構成される。CGによるデータセット(CLEVRの拡張）を用いて既存の深層学習モデルがTVRタスクをどれだけ推論できるかを検証している

新規性

これまでの視覚的推論タスクは、状態の変化がない、または状態が変化する場合も変化が複雑で明確じゃないと主張し、明示的に定義された位置や状態の変化を複数ステップで構成するタスクを提案

結果

既存の深層学習モデルをTranceNetと呼ぶフレームワークを用いた上でTVRタスクに適用したうえで、人間の推論と性能を比較している。Eventタスクについて1ステップなら深層学習モデルは人間並の性能で推論を行えるが、ステップが増えていく度に急激に性能が落ちていくことを示しタスクの必要性を主張している。また、変化を検出できても、その変化の順序についてはうまく推論できていないことを実験で示している

その他（なぜ通ったか？等）

プロジェクトページ：https://hongxin2019.github.io/TVR/

このページで利用されている画像は論文から引用しています．