summarized by : Katsuya Shimabukuro
How to Build User Simulators to Train RL-based Dialog Systems

概要

対話システムの強化学習用に使用するユーザーシミュレーターの構築方法について、どのようにユーザーシミュレーターを構築する方が最終的な対話システムの性能にどれくらい影響するかを検証し、構築方法によって対話システムの性能にも大きく影響するだけでなく、ユーザーシミュレーターの性能と最終的な対話システムの性能に違いがあることを示した
placeholder

新規性

実際に6タイプのユーザーシミュレーターをタスク指向対話のドメインで構築し、ユーザーシミュレーター及びそれぞれのユーザーシミュレーターを用いて強化学習した対話システムの両方を人間評価し、ユーザーシミュレーターの構築方法による影響を評価した

結果

ユーザシミュレーター単体での評価では、教師あり学習でDialog Actを選択しDialog Actに紐付いたテンプレートで応答文を生成する手法が良かったが、ユーザーシミュレーターを用いて強化学習した対話システムでは、一貫してルールベースのDialog Act選択を行ったシミュレーターの方が人間評価が大幅に高くなった。