- …
- …
#26 #acl2020
summarized by : Shintaro Yamamoto
概要
従来の情報抽出タスクは、sentenceやparagraph単位で行われることが多い。Document単位の情報抽出は、全体の内容を把握する必要があるためアノテーションが困難である。科学論文からの情報抽出のためのデータセットSCIREXを提案。
新規性
科学論文のアノテーションは、専門知識を要する上に読解に時間がかかることから、自動でラベル付けしたものを人手で修正するというアプローチを採用。また、BERTベースのベースライン手法を提案。
結果
Paragraph単位ではなくdocument単位で処理を行うことで、精度の向上が確認された。
- …
- …