Straight to the Point: Fast-Forwarding Videos via Reinforcement Learning Using Textual Data

#417

summarized by : Shintaro Yamamoto

Washington Ramos, Michel Silva, Edson Araujo, Leandro Soriano Marcolino, Erickson Nascimento

動画の早送りに関する手法を提案。テキストと動画を入力とし、テキストと関係ないフレームを早送りする強化学習ベースの手法を提案した。

テキストと動画のフレームを入力とし、動画を早送りするかを判断するエージェントを構築。エージェントは、テキストと画像の類似度をリワードとして扱い、スピードを上げる、下げる、維持するのいずれかを判断する。

YouCook2で実験を行い、平均スコアが既存手法よりも高くなった

学習には動画を用いずMS COCOを利用してるのが面白い

このページで利用されている画像は論文から引用しています．