Toxicity Detection: Does Context Really Matter?

#116 #acl2020

summarized by : taichi murayama

John Pavlopoulos, Jeffrey Sorensen, Lucas Dixon, Nithum Thain, Ion Androutsopoulos

概要

Toxiciy検出 (abuse detectionやhateful detection)のタスクで，精度を向上させるために文脈などの情報を考慮することがどの程度重要なのかを調査．そのために，アノテーションタスクで文脈の影響でアノテーションがどの程度変化するのか？更に，文脈を考慮することでモデルの精度がどの程度向上するのかを検証．

新規性

これまでのToxicity検出のためのデータセットではContextが含まれていない，含まれていてもSNSなどのデータセットであることから再現ができないという問題から，検出モデルでのContextの考慮があまりされていなかった．本論文では，はじめてデータセットのアノテーションタスクを通して文脈のある無しでどの程度アノテーショが変化するのか，文脈を考慮することでどの程度精度が向上するのかを詳細に検証した．

結果

2つのToxicityデータセットで，周辺の文脈によって精度が向上するか確認したが，精度の向上が確認できなかった．このことは，データセットの中に文脈によって判定が変化するようなデータが少なかったことに起因すると考えられる．

このページで利用されている画像は論文から引用しています．