summarized by : Shintaro Yamamoto
Long Chen, Xin Yan, Jun Xiao, Hanwang Zhang, Shiliang Pu, Yueting Zhuang
VQAモデルには、画像を参照せずに質問文のみから答えを予測してしまう、画像中の誤った領域を判断根拠としてしまうという問題が存在する。これらの問題を解決するための学習データ作成手法を提案した。
画像もしくは質問文に対して、物体や単語が回答に重要であるかのスコアを算出する。重要度が高い物体及び単語をマスクすることで、新たな学習データを作成する手法を提案した。
4つのVQAモデルいずれにおいても、提案手法を適用することで精度が向上することが確認された。
シンプルなアイデアかつ、あらゆるモデルに適用可能な手法