An Evaluation Dataset for Intent Classification and Out-of-Scope Prediction

#46 #emnlp2019

summarized by : Katsuya Shimabukuro

Stefan Larson, Anish Mahendran, Joseph J. Peper, Christopher Clarke, Andrew Lee, Parker Hill, Jonathan K. Kummerfeld, Kevin Leach, Michael A. Laurenzano, Lingjia Tang, Jason mars

概要

タスク指向対話システムにおけるインテントの分類タスクにおいて、150のインテントラベルとout-of-scope（OOS）なユーザー発話データを含むデータセットを構築。既存のモデルは、In-Scopeなインテントの識別精度は高いが、OOSなインテントのRecallが低くなることを示した

新規性

OOSなユーザー発話データを含むデータセットを構築し、実用的なタスク指向対話システムに求められる、対応外の発話かどうかを識別する機能の性能を評価できるようにした。

結果

BERTを含む一般的なベースラインモデルは、In-Scopeなインテントの識別は95%の精度と非常に高い性能を示すが、 OOSのインテントかどうかの判定では最大でも60%に満たないRecallと低い性能であることを示した

このページで利用されている画像は論文から引用しています．