summarized by : taichi murayama
When do Word Embeddings Accurately Reflect Surveys on our Beliefs About People?

概要

Word embeddingが社会的関係を反映しているという仮定の元,作られたword embeddingを用いてidentity (人種や性別など)に対するバイアスを認識する研究が多く行われている. 本研究では,embeddingによって得られた人々の信念(beleif)が本当に実社会を反映したものなのか?どの程度信頼できるものなのか?を網羅的に調査した研究.
placeholder

新規性

これまでの研究では,word embeddingを用いてバイアスを理解/除去できるかや人々のbelifをどのように測定するのか?といった点に着目されていたが,これらの手法が本当に実社会を反映したものなのか?どういったバイアスを取得するときに有用なのか?といった点が考えられていなかった. 本研究は,これまで考案されてきた手法を大規模・網羅的に,具体的には4種類のEmbedding,12種類のWord Position Measurement手法など (Appendix参照)を取り扱い,新たに57のidentiesに関して作成した2つのデータセットを用いて上記の問についての調査を行った.

結果

他の信念と比較して,性別などのidentityに対して現れる信念はword embeddingでも顕著に表れ,実社会の調査とも強い相関がありword embeddingを用いる有効性について示した. 測定するデータやembedding手法などを変更するだけでも,実社会とword embeddingで得られる結果との相関が大きく変動することが見られた. このことからも,どういったデータを用いて測定するかといった点も重要であるといえる.