#448
summarized by : GOTO Keita
Local Temporal Bilinear Pooling for Fine-Grained Action Parsing

どんな論文か?

動画の時間方向セグメンテーションの従来モデルにBi-linear Poolingを用いる。従来モデルではMax Poolingを採用しているが、fine-grainedな特徴を埋め込むことができない。そこで、画像分類で効果のあったBi-linear Pooling層をデータの平均と分散を用いた形で再定義し導入する。
placeholder

新規性

従来モデルのMax PoolingをBi-linear Poolingに置き換える。

結果

50 Salads, Georgia Tech Egocentric Activity Datasets, JHU-ISI Gesture and Skill Assessment Working Setで実験し、フレームごとのaccuracy、Edit Score、F1 Scoreを計測。各データセットでMaxPoolingを上回った。

その他(なぜ通ったか?等)

モデルは2016年初出のものをそのまま用いてMax PoolingをBi-linear Poolingに置き換えただけではあるが、それまでの試行錯誤とその結果の従来比較がまとまっている。