summarized by : Katsuya Shimabukuro
Recommendation as a Communication Game: Self-Supervised Bot-Play for Goal-oriented Dialogue

概要

レコメンデーションのコールドスタート問題に対応するために、タスク指向対話としてレコメンデーションをとらえるタスク設計において、二人のプレイヤーが協調してゴールを達成するゲームとしてデザインされ、各レコメンドに対して報酬も設定する形式でデータセットを構築。教師あり学習と強化学習の二段階の学習手法を提案し、タスクにおける有効性を示した
placeholder

新規性

SeekerとExpertに分かれ、Seekerは好みの映画セットを元に、Expertはおすすめする映画のセットを元に、対話だけでSeekerが高い報酬を与えるレコメンドをするというゴール設定で対話データを収集。モデルの学習では、まずSeekerモデルとExpertモデルを別々に教師あり学習を行い、次にSeekerモデルとExpertモデルで対話し報酬の高いレコメンドを行うように強化学習する

結果

構築したデータセットのテストセットによる評価では、提案手法は、ベースラインを大幅に上回るタスク達成率、レコメンドの正答率、BLEUを達成した。また、事前学習のみを行ったモデルの方が強化学習まで行ったモデルより良い性能を示した。一方で、システム及び人間とのシミュレーション評価では、強化学習まで行ったモデルが事前学習のみのモデルを大幅に上回る性能を示した