summarized by : Shintaro Yamamoto
Visual Detection with Context for Document Layout Analysis

概要

科学論文のレイアウト解析に関する研究.論文のPDFファイルを画像に変換し,物体検出を適用することでタイトルや著者,図などの位置を推定する.
placeholder

新規性

物体検出器としてFaster R-CNNを採用.候補領域の分類時にページ番号などのコンテキスト情報を追加することで論文特有の特徴を活用する.また,論文100本合計822ページのアノテーションデータを作成した.

結果

ショートペーパーのため著者自らwork in progressとしている.コンテキスト情報を追加することで通常の物体検出手法よりも高い精度を実現することに成功した.