#36
summarized by : Seitaro Shinagawa
Gold Seeker: Information Gain From Policy Distributions for Goal-Oriented Vision-and-Langauge Reasoning

どんな論文か?

エージェントが質問して画像の情報を収集しつつ応答する、画像付き対話タスクを扱った。タスクに正答するのに効率的な質問を行うために、強化学習の手法を拡張した。具体的には、方策の分布のパラメータを分布として扱えるようにした。
placeholder

新規性

一般的な強化学習の枠組みでは方策の分布は1つだが、本手法ではベイジアン的なアプローチを導入することで実質的に複数の方策を考慮でき、情報が得られるかどうか不確実性が高い質問を行う方策も優先して選択することで効率的な質問ができる。

結果

GuessWhat!? datasetとCLEVR datasetの2タスクで実験を行った。タスクの効率で評価。前者ではMemoryNetworkと組合わせた提案手法が最高性能、後者でも色々工夫を凝らして全てのタスク細目で既存手法を上回った。

その他(なぜ通ったか?等)

既存手法からの性能向上が著しいのが評価されたと思われる(論文は読みづらい)