Spatio-Temporal Dynamics and Semantic Attribute Enriched Visual Encoding for Video Captioning

#703

summarized by : Katsuya Shimabukuro

Nayyer Aafaq, Naveed Akhtar, Wei Liu, Syed Zulqarnain Gilani, Ajmal Mian

ビデオについてのキャプションを生成するタスクにおいて、映像情報を時間方向の変化や映像全体の意味的な特徴も含めてエンコードするEnriched VisualEncodingという新しい手法を提案

2DCNNおよび3DCNNが出力した特徴量をHierarchical Short Fourier Transformを適用する事により、時間的な変化を抽出。また、物体検出およびアクション識別の出力をエンコードすることにより、映像全体の意味的な特徴を考慮する、映像のエンコーダーを提案

MSVDおよびMSR-VTTの二つのベンチマークで、既存手法と比較。METEORやROUGEなどの評価指標で、SOTAを1〜2ポイント上回る性能を示した。また、提案したエンコーダーを使用しない場合と比べて、4ポイント以上評価指標が改善することを示した

このページで利用されている画像は論文から引用しています．