#73
summarized by : QIUYUE
SimVQA: Exploring Simulated Environments for Visual Question Answering

どんな論文か?

VQA手法を学習する際に大量なデータが必要で、既存手法は学習データセットをベースに、データAugmentationを行うものが多い。そのため、データセットのダイバシティが制限される。ここで、CG環境とテンプレート言語によりVQAデータセット自動生成の手法を提案。3次元環境で視点、物体の配置がコントロール可能で、より多様な学習データを作成可能。
placeholder

新規性

CGベースのVQAデータセット自動生成の手法を提案。また、新しい提案されたDomain Adaptationと合わせて、提案のデータセットのみ学習して、リアルデータセットで良い性能を実現した。

結果

提案のCGデータセットのみ学習しても、 リアルのVQAデータセットで良い性能を実現。また、提案データセットと既存データセットで一緒に学習することで既存手法の性能向上を達成した。

その他(なぜ通ったか?等)

最新の技術を積極的に導入するべき(例:CLIP、BERT、NeRFなど)。完全にCGで学習してリアルで高い性能を出すことはVQAのみではなく、どの分野においてもかなり良い。