tBERT: Topic Models and BERT Joining Forces for Semantic Similarity Detection

#73 #acl2020

summarized by : myoshi

Nicole Peinelt, Dong Nguyen, Maria Liakata

概要

２つの文書間の類似度（semantc similarity）を計算するのに、近年ではBERT等で文章をEmbeddingすることが多い。本論文では、精度向上の目的で、事前学習したTopic modelを用いて明にトピック情報をBERTに与えて学習するtBERTモデルを提案。 tBERTでは2つの文書を入力に取り、2つの文書が言い換え(Paraphrase)である確率を出力する。Topic modelでは2つの文書のトピック分布をそれぞれ推定し、BERTでは文書ペアの表現を推定する（図を参照）。最後に、Topic modelとBERTの出力を結合し、softmax関数に入力して、推定を行う。

新規性

semantic similarityを予測するタスクにおいて、BERTにトピック情報を付加する標準的な手法が確立されていない。そこで本論文では、BERTにTopic modelingを応用したハイブリッドモデルを提案した。

結果

与えられた2つの文書が言い換え（paraphrase）かどうかを判定するタスクにおいて、tBERTはBERTを使った既存手法よりも安定的に高い精度を示した。

このページで利用されている画像は論文から引用しています．