- …
- …
#73 #acl2020
summarized by : myoshi
概要
2つの文書間の類似度(semantc similarity)を計算するのに、近年ではBERT等で文章をEmbeddingすることが多い。本論文では、精度向上の目的で、事前学習したTopic modelを用いて明にトピック情報をBERTに与えて学習するtBERTモデルを提案。
tBERTでは2つの文書を入力に取り、2つの文書が言い換え(Paraphrase)である確率を出力する。Topic modelでは2つの文書のトピック分布をそれぞれ推定し、BERTでは文書ペアの表現を推定する(図を参照)。最後に、Topic modelとBERTの出力を結合し、softmax関数に入力して、推定を行う。
新規性
semantic similarityを予測するタスクにおいて、BERTにトピック情報を付加する標準的な手法が確立されていない。そこで本論文では、BERTにTopic modelingを応用したハイブリッドモデルを提案した。
結果
与えられた2つの文書が言い換え(paraphrase)かどうかを判定するタスクにおいて、tBERTはBERTを使った既存手法よりも安定的に高い精度を示した。
- …
- …