Hierarchical Self-Attention Network for Action Localization in Videos

#38

summarized by : Kensho Hara

Rizard Renanda Adhi Pramono, Yie-Tarng Chen, Wen-Hsien Fang

どんな論文か？

動画中の行動を時空間で切り出すAction Localizationの手法を提案．二段階（two-stream fusionの前後）のSelf-attentionの機構を導入することで，長期的な時系列の依存性と空間的なコンテキスト情報の両方を捉えられるようにしている．

新規性

1. 二段階に分けたself-attention機構を導入したHIerarchical Self-Attention Network (HISAN), 2. シーケンスの再スコアリング手法, 3. 新しいfusion方法の提案

結果

Ablation StudyでHISANが一番精度向上に効いていることを確認（他2つはおまけ程度の向上に近い）．J-HMDBでSOTA．UCF101-24では2番目に良い．

その他（なぜ通ったか？等）

タイトルがHierarchical Self-Attention Networkなのに，これに加えて他にもう2つの工夫を同列に主張していて，何がメインなのかわかりにくい．実験でSelf-attentionが一番効いているのは示してるから書き方が... そもそもSelf-attentionがなぜいるのかという導入もほぼなし．あと手法の名前がHISANなのが日本語的に悲惨...

このページで利用されている画像は論文から引用しています．