Semantic-Aware Video Text Detection

#703

summarized by : 金城忍

Wei Feng, Fei Yin, Xu-Yao Zhang, Cheng-Lin Liu

どんな論文か？

各フレームで文字列を含んだバウンディングボックス、ボックス内の各文字の中心に基づくボックスに対するマスキング及び領域分割マップを生成する一方で、フレーム間で文字列の特徴量、領域分割マップの特徴量及び文字列RoIの座標情報の特徴量を比較することで、連続する映像内の文字列検知に対する頑健性を改善する提案

新規性

フレーム毎の系列情報を取得し続ける一方で、フレーム間での意味的、幾何学的情報を比較することで連続的に文字列を検知するという点で新規

結果

ImageNetで事前学習したResNet-50-FPNを使用してICDAR、Minetto、RT-1K、CASIA10K及びMSRA-TD500での評価で、ICDAR以外で提案手法は既存手法よりよい結果を達成した (但しMSRA-TD500 P値、R値を除く)

その他（なぜ通ったか？等）

このページで利用されている画像は論文から引用しています．