SimVQA: Exploring Simulated Environments for Visual Question Answering

#73

summarized by : QIUYUE

Paola Cascante-Bonilla; Hui Wu; Letao Wang; Rogerio S. Feris; Vicente Ordonez

どんな論文か？

VQA手法を学習する際に大量なデータが必要で、既存手法は学習データセットをベースに、データAugmentationを行うものが多い。そのため、データセットのダイバシティが制限される。ここで、CG環境とテンプレート言語によりVQAデータセット自動生成の手法を提案。3次元環境で視点、物体の配置がコントロール可能で、より多様な学習データを作成可能。

新規性

CGベースのVQAデータセット自動生成の手法を提案。また、新しい提案されたDomain Adaptationと合わせて、提案のデータセットのみ学習して、リアルデータセットで良い性能を実現した。

結果

提案のCGデータセットのみ学習しても、リアルのVQAデータセットで良い性能を実現。また、提案データセットと既存データセットで一緒に学習することで既存手法の性能向上を達成した。

その他（なぜ通ったか？等）

最新の技術を積極的に導入するべき（例：CLIP、BERT、NeRFなど）。完全にCGで学習してリアルで高い性能を出すことはVQAのみではなく、どの分野においてもかなり良い。

このページで利用されている画像は論文から引用しています．