SciREX: A Challenge Dataset for Document-Level Information Extraction

summarized by : Shintaro Yamamoto

Sarthak Jain, Madeleine van Zuylen, Hannaneh Hajishirzi, Iz Beltagy

従来の情報抽出タスクは、sentenceやparagraph単位で行われることが多い。Document単位の情報抽出は、全体の内容を把握する必要があるためアノテーションが困難である。科学論文からの情報抽出のためのデータセットSCIREXを提案。

科学論文のアノテーションは、専門知識を要する上に読解に時間がかかることから、自動でラベル付けしたものを人手で修正するというアプローチを採用。また、BERTベースのベースライン手法を提案。

Paragraph単位ではなくdocument単位で処理を行うことで、精度の向上が確認された。

このページで利用されている画像は論文から引用しています．