#823
summarized by : Hiroki Ohashi
ZSTAD: Zero-Shot Temporal Activity Detection

どんな論文か?

Untrimmedな映像データから、いつどのような行動が起こったかを、zero-shot(学習データのクラスとテストデータのクラスが別々)で行うというタスク、zero-shot temporal activity detection (ZSTAD)を提案。これを解くためのR-C3Dベースのネットワークと新規のロスを提案し、実験にてベースラインを上回る性能を確認した。
placeholder

新規性

まずタスク自体が新規である。また、それを解くためにlabel embeddingをクラスタリングしてsuperクラスを作り、このsuperclassを当てるという補助タスクに関する新規のロスを提案している。

結果

THUMOS’14とCharadesデータセットにおいて、R-C3Dにzero-shot recognition (≠detection)でよく用いられる手法を組み合わせたベースラインに対し、それを上回る性能を確認。またablation studyで提案アーキテクチャの各部分の有効性を確認した。

その他(なぜ通ったか?等)

新規のタスクの提案と、これを解くためのアーキテクチャと新規のロスを提案し、それらの有効性を実験にて示したため。