summarized by : Katsuya Shimabukuro
An Evaluation Dataset for Intent Classification and Out-of-Scope Prediction

概要

タスク指向対話システムにおけるインテントの分類タスクにおいて、150のインテントラベルとout-of-scope(OOS)なユーザー発話データを含むデータセットを構築。既存のモデルは、In-Scopeなインテントの識別精度は高いが、OOSなインテントのRecallが低くなることを示した
placeholder

新規性

OOSなユーザー発話データを含むデータセットを構築し、実用的なタスク指向対話システムに求められる、対応外の発話かどうかを識別する機能の性能を評価できるようにした。

結果

BERTを含む一般的なベースラインモデルは、In-Scopeなインテントの識別は95%の精度と非常に高い性能を示すが、 OOSのインテントかどうかの判定では最大でも60%に満たないRecallと低い性能であることを示した