Contextualizing Hate Speech Classifiers with Post-hoc Explanation

#74 #acl2020

summarized by : H.Yamamoto

Brendan Kennedy, Xisen Jin, Aida Mostafazadeh Davani, Morteza Dehghani, Xiang Ren

概要

訓練データ自体のバイアスのヘイトスピーチ識別器への影響を少なくするために、目的関数にsampling and occlusion（SOC）アルゴリズムに基づく評価値を正則化項として加える手法を提案した。 SOCによる評価値というのは、あるフレーズを文中から抜くことで平均的にどれだけ真と判定される度合いが減少するか、というような値。画像の様に、モデルがどこを判断材料にしているのかを階層的に分析することができる。

新規性

データのバイアスに対処する新たな正則化項を提案した。

結果

Gab Hate Corpus、Stormfrontのデータで、正則化をしないパターン、単に訓練・テストデータから問題の単語を削除するパターン、SOC正則化項ありパターン、SOC正則化（サンプリング省略）のパターンを比較した。 F1値ではいずれもSOC正則化パターンが最高値となった。また画像はどちらも正しく分類できている例となっているが、正則化なし(a)では偏見に基づいて短絡的に判断しているのに対し、SOC正則化項あり(b)では短絡的な性向が弱まり正しい根拠から判断している。

このページで利用されている画像は論文から引用しています．