#647
summarized by : Ryo Nakamura
Modeling Multi-Label Action Dependencies for Temporal Action Localization

どんな論文か?

本論文では,マルチラベルの時間的なアクションローカライゼーション(行動定位置化)を行うために,ビデオの行動の依存関係を学習するためのAttention ベースのネットワークを提案することで,行動定位置化の性能を向上した.また,マルチラベル分類に使用されるf-mAPは行動の依存性がどの程度適切にモデル化されているか明示的に測定できないため,互いの依存性を考慮する新しいメトリックを提案している.
placeholder

新規性

行動の共起性と行動の時間の関係性の両方をモデル化する新しいネットワークを提案. タイムステップ間およびタイムステップ内でクラスの共起性を評価するために,共起性を考慮した評価指標を提案した.

結果

提案した共起性を学習するMLADレイヤーを重ねると性能が向上した.定性的な評価では,行動定位置化やattetion mapの結果を見ると,「落ちる」という行動と「ジャンプ」という行動の依存関係を学習していることが確認できた.

その他(なぜ通ったか?等)

性能に関してもSoTAを超えており,解析結果を通して行動の共起性,依存関係を学習できているところや,依存関係を評価するための新しい評価指標を提案したところが評価されていると感じる.