Information Maximizing Visual Question Generation

#311

summarized by : kotayoshida

Ranjay Krishna, Michael Bernstein, Li Fei-Fei

VQAにおいて，良い質問は、画像に関連するだけでなく、特定の回答カテゴリを想定するように設計されている質問と定義する．生成された質問と画像および予想される回答との間の相互情報量を最大化し，具体的なカテゴリーの答えを達成する良いvisual questionを生成する手法を提案．

(1)潜在空間zを導入し、画像と予想する回答の表現を再構成することによって、証拠の下限を最大化． (2)潜在空間tを導入し，回答そのものではなく回答カテゴリをエンコードし、zとtの間の乖離を最小限に抑えることで、回答は不要になり、tから質問ディレクトリを生成．

既存の手法のもでるよりもMETEORや生成された質問と画像および予想される回答との間の相互情報量が大きくなった．また，質問の多様性をStrengthとInventivenessで評価し，既存の手法よりも大きくなったことを示した．

このページで利用されている画像は論文から引用しています．