Attend to Medical Ontologies: Content Selection for Clinical Abstractive Summarization

#130 #acl2020

summarized by : Ryuichi Nakahara

Sajad Sotudeh Gharebagh, Nazli Goharian, Ross Filice

概要

自動文書要約ではseq2seqが用いられるが、重要な項目が抜けてしまうことが問題だった。医療サマリー（医療画像の読影レポート）はFINDINGとその要約であるIMPRESSIONからなるため、抽出型のタスクとみなすことができる。医学的に重要な項目について要約することが必要だが、従来法では医療単語が学べないことが問題だった。そこでBERTを放射線医学用語を用いて事前学習し、さらにレポート内容で学習することで医学用語を重要視したモデルを作成した。

新規性

従来型の要約モデル（Seq2Seq + Attention）に放射線医学用語集で事前学習したBERTを加えた。

結果

MIMI-CTR（約10万レポート）ではROUGEスコアが従来法（PG, ont.PG, BUS, etc)より改善（RG-1で2.9%、RG-2で25%、RG-Lで1.9%） Open-I（約3千レポート）でも改善を認め、医師の目視確認による性能比較でも性能向上を認めた。

このページで利用されている画像は論文から引用しています．