summarized by : H.Yamamoto
Demographics Should Not Be the Reason of Toxicity: Mitigating Discrimination in Text Classifications with Instance Weighting

概要

サンプルに重みづけをしてロスを計算することで、社会的偏見によってラベルにバイアスがかかってしまっているデータからバイアスをキャンセルしてtext classifierを学習する手法を提案した。
placeholder

新規性

データを追加(Dixon et at. 2018 等)や増強(Park et al. 2018 等)のようなデータ操作ではなく、サンプルに重みづけをすることでデータのバイアスをキャンセルする手法となっている。 バイアスのあるデータ D (対応する確率分布はP)は、バイアスのないデータ D_hat (対応する確率分布はQ)から、社会的偏見に基づくある確率によってサンプリングされると考える。 それほど無理のないいくつかの前提をおいて計算していくと、D からの個々のサンプルに w = Q(y) / P(y | z) という重みを付けてロスを計算すれば、D_hat によって得られるロスと漸近的に等しくなる。

結果

Sexist Tweets、Txocity Comment、Jigsaw Toxicityのデータを使い、IPTTS(identity phrase templates test sets)のAUC、FPED(false positive equality defference)、FNED(false negative equality difference)を比較した。 提案手法はバイアス対策なしの手法やDixon等の手法よりも好成績だったが、Park等の手法と比べるとIPTTS AUCは高かったがFPED・FNEDは低かった。 ちなみに、元バイアス除去しないテストデータでのAUCは、バイアス対策なし手法にはもちろんのこと、Dixon等やPark等の手法よりも低くなっている様子。 画像はいくつかの問題がありそうな属性についてFPEDとFNEDをbaselineと比較しているもの。 ただしIPTTS。