#337
summarized by : kota yoshida
ESIR: End-To-End Scene Text Recognition via Iterative Image Rectification

どんな論文か?

本論文では,VideoQAのための新しいend to endのDeep learning frameworkを提案し,ビデオフレーム内の全体的なコンテキスト情報、質問の複雑な意味,およびそれらの相互作用をよりよく捉えるための新しい外部メモリモジュールを設計.
placeholder

新規性

3つの要素によるフレームワーク (1)アピアランスやモーションの特徴から全体的なコンテキスト情報を学習するheterogeneous memory (2)質問の複雑な意味を理解するのを助け,質問された主題をハイライトするようなquestion memory (3)自己更新で関連する視覚的およびテキスト的ヒントにattentionをつけることでマルチステップの推論をするマルチモーダルな結合layer

結果

4つのideoQAデータセット(TGIF-QA,MSVD-QA,MSRVTT-QA,YouTube2Text-QA)に関する実験結果は,本手法が最先端の方法よりも優れていることを示した.

その他(なぜ通ったか?等)