Visual Detection with Context for Document Layout Analysis

summarized by : Shintaro Yamamoto

Carlos Soto, Shinjae Yoo

科学論文のレイアウト解析に関する研究．論文のPDFファイルを画像に変換し，物体検出を適用することでタイトルや著者，図などの位置を推定する．

物体検出器としてFaster R-CNNを採用．候補領域の分類時にページ番号などのコンテキスト情報を追加することで論文特有の特徴を活用する．また，論文100本合計822ページのアノテーションデータを作成した．

ショートペーパーのため著者自らwork in progressとしている．コンテキスト情報を追加することで通常の物体検出手法よりも高い精度を実現することに成功した．

このページで利用されている画像は論文から引用しています．