summarized by : cfiken
Beyond User Self-Reported Likert Scale Ratings: A Comparison Model for Automatic Dialog Evaluation

概要

雑談対話モデルはその性質上自動評価が難しいため、5段階で良かったかどうか問うリッカート尺度での評価がよく使われているが、リッカート尺度は分布の歪みやユーザ間の一致度の低さ、感度の低さなど、問題が多いことも知られている。 Shapley などを用いてノイズデータの削除を行うなどの3ステップの学習を行った、対話の比較評価のためのモデル CMADE を提案、エキスパートのスコアと高い相関を示した。
placeholder

新規性

リッカート尺度による人手評価について、エキスパートによる比較評価との分析を行っている。 学習パイプラインを3段階に分け、Shapley などを用いてノイズを軽減している。

結果

現在のリッカート尺度での評価に関して分析を行い、専門家に再度アノテーションさせたところ多くが異なるカテゴリに再分類されるなど、これらで学習を行っても対話精度の最適化にはなりづらいと結論。 提案手法CMADEは BERT ベースの手法などと比べて専門家評価との相関が非常に高く、ablation study では3ステージの学習とノイズ軽減のステップすべてが効果があることを確認した。