summarized by : 楢木悠士
DefSent: Sentence Embeddings using Definition Sentences

概要

文の埋め込み表現を得るための手法にはいくつかのモデルが提案されてきたが、その学習には十分な学習データ数を持つNLIデータセットが必要となる。しかし、NLIデータセットは一部の言語でしか整備されていない。本研究では多くの言語で整備されている辞書データ(単語, 定義文)による学習が可能なアーキテクチャを提案している。大規模なNLIデータセットで学習した既存手法と比べ、SentEvalタスクでは僅かに良い結果となった。
placeholder

新規性

辞書データから文埋め込みを得る手法は提案されている(Hill et al., 2016)が、既存手法ではRNNを用いたものである。Hillらの手法に比べて、本研究ではBERTを用いているため、事前学習の恩恵を得ることを可能にしている。

結果

教師なしSemantic textual similarity(STS)タスクでは、DefSentはSentence-BERTと同等の性能を示した。SentEvalタスクでは、Sentence-BERTを上回る性能を示した。