#703
summarized by : Katsuya Shimabukuro
Spatio-Temporal Dynamics and Semantic Attribute Enriched Visual Encoding for Video Captioning

どんな論文か?

ビデオについてのキャプションを生成するタスクにおいて、映像情報を時間方向の変化や映像全体の意味的な特徴も含めてエンコードするEnriched VisualEncodingという新しい手法を提案
placeholder

新規性

2DCNNおよび3DCNNが出力した特徴量をHierarchical Short Fourier Transformを適用する事により、時間的な変化を抽出。また、物体検出およびアクション識別の出力をエンコードすることにより、映像全体の意味的な特徴を考慮する、映像のエンコーダーを提案

結果

MSVDおよびMSR-VTTの二つのベンチマークで、既存手法と比較。METEORやROUGEなどの評価指標で、SOTAを1〜2ポイント上回る性能を示した。また、提案したエンコーダーを使用しない場合と比べて、4ポイント以上評価指標が改善することを示した

その他(なぜ通ったか?等)