summarized by : taichi murayama
Toxicity Detection: Does Context Really Matter?

概要

Toxiciy検出 (abuse detectionやhateful detection)のタスクで,精度を向上させるために文脈などの情報を考慮することがどの程度重要なのかを検証. 具体的には,アノテーションタスクで文脈の影響でアノテーションがどの程度変化するのか?更に,文脈を考慮することでモデルの精度がどの程度向上するのかを検証.
placeholder

新規性

これまでのToxicity検出のためのデータセットではContextが含まれていない,含まれていてもSNSなどのデータセットであることから再現ができないという問題から,検出モデルでのContextの考慮があまりされていなかった. 本論文では,はじめてデータセットのアノテーションタスクを通して文脈のある無しでどの程度アノテーショが変化するのか,文脈を考慮することでどの程度精度が向上するのかを詳細に検証した.

結果

アノテーションタスクでは,文脈が存在しない時のアノテーションと比較して,文脈が付与されたアノテーションでデータの5%がアノテーションが変化することがわかった. しかし,検出タスクで文脈を考慮したモデルと文脈を考慮しなかったモデルでの精度差はほとんどなかった. これは,データセットの中で文脈を考慮することで判定が変化するデータが多くないことが関係していると推定される.