summarized by : Seitaro Shinagawa
MuTual: A Dataset for Multi-Turn Dialogue Reasoning

概要

深層学習ベースの対話モデルの論理的な推論能力向上を目標として、推論能力を必要とする会話データセットMuTualを提案した。中国の学生向けのEnglish listening comprehension試験に基づいた8,860対話で構成されており、4つの選択肢から次に続く最も適当な文を一つ選ぶというタスクになっている。
placeholder

新規性

チャットボットにとって論理的に整合する対話を行うことは重要だが、これまでに高度な推論能力を計測できるオープンドメインかつmulti-turnのデータセットが存在しなかった。例外としてCoQAがあるが、これはreading comprehensionのためのデータセットで文脈となるテキストに対するQAである。一方MuTualは次の文の予測をするというタスクになっている点が異なっている。

結果

BERT、RoBERTaなどの最新の手法をベースラインとして評価した結果、RoBERTaでの正解率は71.3%にとどまった。英語に堪能な人間の正解率は94%であり、まだまだ向上の余地がある難しいデータセットになっている。Ablation studyでは、対話履歴を削除することで予測性能が下がることを示し、文脈情報が正解するのに必要な情報であることが示唆されている。