- …
- …
#116
summarized by : maokura
どんな論文か?
動画中のある時点までの動作とタイミングからその後の動作と継続時間を予測するタスク(point process?)をVAEベースの確率モデルで行う手法を提案.一般的なVAEが固定の潜在分布を仮定するのに対し,各時点での潜在分布と次の動作の潜在分布のパラメータを推定するposterirとpriorをエンコーダに導入し,動作の関係性を考慮できるようにした.
新規性
動画のシーンに動作が結びつけられているデータ(Point Process,例として調理過程など)の確率的モデル化をVAEベースの手法で行なった.時系列データのために,次時点の潜在分布のパラメータを予測するpriorをエンコーダに導入した.
結果
LSTMベースの手法と,提案手法からpriorを取り除いたもの(潜在分布を固定)を比較手法として実験を行なった.データセットにはMultiTHUMOS DatasetとBreakfast Datasetを用いた.対数尤度と動作の予測精度,時間の予測誤差MAEを指標とし評価を行なったところ,提案手法が既存手法に大きく勝った.
その他(なぜ通ったか?等)
- …
- …