#300
summarized by : Atsuki Osanai
Knowledge Mining With Scene Text for Fine-Grained Recognition

どんな論文か?

画像を入力としてシーン分類を行う。その際、画像中に含まれるテキストの表層的な意味だけからは分類に有用な情報を獲得できない場合があることを指摘(例:"apple"は果実と会社名の両方の意味がある)。本研究ではテキストが表す真の意味を、①Wikipediaの統計情報、②①の特徴を用いBERT特徴の増強(KARC)、③画像とテキスト情報の統合(VKAC)、を行うことで抽出し、シーン分類の精度を向上した。

新規性

Wikipediaを利用した言語知識の抽出、およぼその情報を画像・言語特徴とFusionするアーキテクチャを提案いsた点

結果

シーン分類のベンチマークであるCon-Text, Drink Bottle, Crowd ActivityデータセットにおいてSOTAを達成

その他(なぜ通ったか?等)

https://github.com/lanfeng4659/KnowledgeMiningWithSceneText