summarized by : shirouchi satoshi
Hubless Nearest Neighbor Search for Bilingual Lexicon Induction

概要

shirouchi satoshi
placeholder

新規性

ターゲット言語とマッピングしたソース言語で最も距離の近い単語対を対訳辞書とするバイリンガル辞書誘導におけるハブネスを軽減するHubless Nearest Neighbor(HNN)の提案。ハブネスは、ある空間にたくさんの単語が集まりすぎて、上手くペアをみつけられない問題。ハブネスに対するある既存手法のInverted Softmax(ISF)が上手く機能する理由は明らかになっていなかった。本研究ではHNNの詳細に加えて、ISFが上手くいく理由と、ISFはHNNの特殊な場合であることも述べる。

結果

ハブネスを軽減してペアを求める問題を言語間の距離の行列から、ハブネスを軽減した対訳辞書を選択するための確率の行列へと変換する問題とした。ISFは一度距離の行列の(行方向で最も短い距離の単語を対訳とする場合の)列方向を正規化する。これにより一つの単語が複数の単語から選ばれることが少ない確率の行列が求まる。しかし、それだけだと行方向の要素を足しても1にならない。 そこで、列方向と行方向の正規化を繰り返すのがHNN。これにはメモリをたくさん必要とするので、多くのメモリを必要としない正規化を繰り返す方法も提案している。