summarized by : koji hisaka
NAT: Noise-Aware Training for Robust Neural Sequence Labeling

概要

シーケンスラベリングシステムは、理想的な条件だけでなく、入力が破損している場合にも信頼性の高い性能を発揮しなければならない。 これらのシステムは、ユーザが生成したテキストを処理したり、エラーの発生しやすい上流コンポーネントに従うことが多いため。
placeholder

新規性

この目的のために、我々は、入力が未知のノイズ処理を受ける可能性があるノイズの多いシーケンスラベリング問題を定式化し、摂動された入力に対して実行されるシーケンスラベリングのロバスト性を向上させる2つのNoise-Aware Training (NAT)目標を提案する。我々のデータ増強法では、クリーンサンプルとノイズサンプルの混合物を用いてニューラルモデルを訓練し、安定性訓練アルゴリズムでは、モデルがノイズに不変な潜在表現を作成するように促す。学習時には、バニラノイズモデルを使用します。

結果

評価には、元のデータと、実際のOCRエラーやスペルミスを修正したデータの両方を使用する。英語とドイツ語の名前付き実体認識ベンチマークでの広範な実験により、NATが一般的なシーケンスラベリングモデルのロバスト性を一貫して向上させ、元の入力の精度を維持することを確認した。我々のコードとデータは研究コミュニティに公開されている。