summarized by : stktu
The SOFC-Exp Corpus and Neural Approaches to Information Extraction in the Materials Science Domain

概要

材料科学分野の論文を対象に、実験情報を付与するためのアノテーションスキームを開発し、固体酸化物系燃料電池(SOFC)に関するオープンアクセスの論文を用いてコーパスを作成した。3つの情報抽出タスクを設定し、複数の機械学習手法の性能を比較した。
placeholder

新規性

SOFCに関する45報の論文からなるコーパスを作成した。3つの情報抽出タスク(実験の説明文の識別、物質・値・装置の説明文の識別、実験に関連するスロットフィリング)を設定した。

結果

各タスクにいくつかの機械学習手法を適用した結果、すべてのタスクにおいて、(Sci)BERTの埋め込み表現+BiLSTM、またはファインチューニングした(Sci)BERTモデルを用いたときの性能が高かった。科学系のテキストで学習されたSciBERTを用いることで性能が高くなったので、ドメイン知識を用いることで性能が向上すると考えられる。