summarized by : H.Yamamoto
Contextualizing Hate Speech Classifiers with Post-hoc Explanation

概要

訓練データ自体のバイアスのヘイトスピーチ識別器への影響を少なくするために、目的関数にsampling and occlusion(SOC)アルゴリズムに基づく評価値を正則化項として加える手法を提案した。 SOCによる評価値というのは、あるフレーズを文中から抜くことで平均的にどれだけ真と判定される度合いが減少するか、というような値。 画像の様に、モデルがどこを判断材料にしているのかを階層的に分析することができる。
placeholder

新規性

データのバイアスに対処する新たな正則化項を提案した。

結果

Gab Hate Corpus、Stormfrontのデータで、正則化をしないパターン、単に訓練・テストデータから問題の単語を削除するパターン、SOC正則化項ありパターン、SOC正則化(サンプリング省略)のパターンを比較した。 F1値ではいずれもSOC正則化パターンが最高値となった。 また画像はどちらも正しく分類できている例となっているが、正則化なし(a)では偏見に基づいて短絡的に判断しているのに対し、SOC正則化項あり(b)では短絡的な性向が弱まり正しい根拠から判断している。