#5
summarized by : shirouchi satoshi
Hubless Nearest Neighbor Search for Bilingual Lexicon Induction

概要

ターゲット言語とマッピングしたソース言語で最も距離の近い単語対を対訳辞書とするバイリンガル辞書誘導におけるハブネスを軽減するHubless Nearest Neighbor(HNN)の提案。ハブネスは、ある空間にたくさんの単語が集まりすぎて、上手くペアをみつけられない問題。ハブネスに対するある既存手法のInverted Softmax(ISF)が上手く機能する理由は明らかになっていなかった。本研究ではHNNの詳細に加えて、ISFが上手くいく理由と、ISFはHNNの特殊な場合であることも述べる。
placeholder

新規性

ハブネスを軽減してペアを求める問題を言語間の距離の行列から、ハブネスを軽減した対訳辞書を選択するための確率の行列へと変換する問題とした。ISFは一度距離の行列の(行方向で最も短い距離の単語を対訳とする場合の)列方向を正規化する。これにより一つの単語が複数の単語から選ばれることが少ない確率の行列が求まる。しかし、それだけだと行方向の要素を足しても1にならない。 そこで、列方向と行方向の正規化を繰り返すのがHNN。これにはメモリをたくさん必要とするので、多くのメモリを必要としない正規化を繰り返す方法も提案している。

結果

NN(Nearest Neighbor)、ISF、Cross domain Similarity Local Scaling(CSLS)、HNNを使って、英語に対し、スペイン語、ドイツ語、フランス語、イタリア語、ポルトガル語のバイリンガル辞書誘導を行った結果、ドイツ語以外は、提案手法のHNNが優れていた。NNと比べるとHNNはハブの数も削減できていた。データセットはMUSE。