summarized by : Shintaro Yamamoto
SciREX: A Challenge Dataset for Document-Level Information Extraction

概要

従来の情報抽出タスクは、sentenceやparagraph単位で行われることが多い。Document単位の情報抽出は、全体の内容を把握する必要があるためアノテーションが困難である。科学論文からの情報抽出のためのデータセットSCIREXを提案。
placeholder

新規性

科学論文のアノテーションは、専門知識を要する上に読解に時間がかかることから、自動でラベル付けしたものを人手で修正するというアプローチを採用。また、BERTベースのベースライン手法を提案。

結果

Paragraph単位ではなくdocument単位で処理を行うことで、精度の向上が確認された。