Long-Term Feature Banks for Detailed Video Understanding

#350

summarized by : cfiken

Chao-Yuan Wu, Christoph Feichtenhofer, Haoqi Fan, Kaiming He, Philipp Krahenbuhl, Ross Girshick

どんな論文か？

Video Understanding において、多くの既存モデルでは2-5秒の短い時間しか見ていないのに対して、コンテキストを正しく理解するには映像全体から情報を抽出する必要があるとして、既存モデルを拡張するための long-term feature bank を提案。 3D CNN の既存モデルに提案手法を取り入れることで、いくつかの Video Dataset で SOTA を更新した。

新規性

Long-term な特徴を取り入れる研究はいくつか存在するが、先に過去の特徴を計算しておくものや、frame を飛ばして入力とするものが多いが、end-to-end でなくなってしまったり、短いスパンの情報も落としてしまうという欠点があった。提案手法は、End-to-end で、短いスパンの特徴を強く考慮しつつ、長いスパンの特徴をうまく使うことができるという点で初。

結果

既存モデルに Long-term Feature Bank を拡張して実験し、AVA, EPIC-Kitchens, Charades の3つのデータセットで SOTA を更新した。

その他（なぜ通ったか？等）

課題に対するアプローチが新しく、既存モデルの問題(end-to-end でなくなってしまう、情報量が落ちる)をうまく解決している。

このページで利用されている画像は論文から引用しています．