summarized by : koji hisaka
Contextualized Sparse Representations for Real-Time Open-Domain Question Answering

概要

オープンドメインの質問応答は、フレーズ検索問題として定式化されることがあり、この問題はスケーラビリティとスピードの面で大きなメリットが期待できるが、既存のフレーズ表現モデルの限界により、精度が低いことが多い。本論文では、文脈化されたスパース表現(SPARC)を用いて各フレーズの埋め込みの品質を向上させることを目的としている。
placeholder

新規性

従来のスパースベクトルは、項頻度に基づいたもの(例えば、tf-idf)や直接学習されたもの(数千次元しかない)とは異なり、整流化された自己注意を利用して、n-gramの語彙空間のスパースベクトルを間接的に学習する。

結果

以前のフレーズ検索モデル(Seo et al., 2019)をSPARCで拡張することで、我々はCuratedTRECとSQuADOpenで4%以上の改善を示す。我々のCuratedTRECスコアは、少なくとも45倍以上の高速な推論速度を持つ、最もよく知られているリトリーブ&リードモデルよりもさらに優れている。