summarized by : cfiken
Ranking and Sampling in Open-Domain Question Answering

概要

Open-domain Question Answering は質問にいくつかのパラグラフから答えを作成するが、既存手法の多くは質問とパラグラフの関係による教師あり学習を用いている。 本研究では、多くの候補となるパラグラフの中には noisy (回答の単語は含まれるが回答は導けない)や distracting (回答の単語が含まれない)が含まれるとし、 パラグラフとパラグラフの関係を活用して有用なパラグラフを見つけるためのランキングモデルや、それを用いた学習時の sampling strategy を提案した。 Quasar-T, SearchQA, TriviaQA のデータセットでSoTAを更に改善。
placeholder

新規性

複数パラグラフの候補の中から回答を見つけるような QA タスクについて、質問-パラグラフの関係だけではなくパラグラフ間の関係に着目し、パラグラフのスコアを使った sampling strategy を提案した。

結果

Quasar-T, SearchQA, TriviaQA のデータセットを使って、多くのベースラインモデルと比較し、SoTAを更新した。複数の実験と分析を行い、ranker モデル、 sampling strategy ともに性能に貢献していることを示した。