Gold Seeker: Information Gain From Policy Distributions for Goal-Oriented Vision-and-Langauge Reasoning

#36

summarized by : Seitaro Shinagawa

Ehsan Abbasnejad, Iman Abbasnejad, Qi Wu, Javen Shi, Anton van den Hengel

エージェントが質問して画像の情報を収集しつつ応答する、画像付き対話タスクを扱った。タスクに正答するのに効率的な質問を行うために、強化学習の手法を拡張した。具体的には、方策の分布のパラメータを分布として扱えるようにした。

一般的な強化学習の枠組みでは方策の分布は１つだが、本手法ではベイジアン的なアプローチを導入することで実質的に複数の方策を考慮でき、情報が得られるかどうか不確実性が高い質問を行う方策も優先して選択することで効率的な質問ができる。

GuessWhat!? datasetとCLEVR datasetの2タスクで実験を行った。タスクの効率で評価。前者ではMemoryNetworkと組合わせた提案手法が最高性能、後者でも色々工夫を凝らして全てのタスク細目で既存手法を上回った。

既存手法からの性能向上が著しいのが評価されたと思われる（論文は読みづらい）

このページで利用されている画像は論文から引用しています．