#229
summarized by : GOTO Keita
Unsupervised Learning of Action Classes With Continuous Temporal Embedding

どんな論文か?

教師なし学習を用いて、動画に対し時間方向のセグメンテーションを行う。2層のMLPを用いて、動画フレームから動画内の相対時間を予測するタスクを学習させ、特徴量のEmbeddingを得る。その特徴量をk平均法でクラスタリングし、クラスタ内の動画フレームの平均時間からクラスタを時間順に並べる。この順序とEmbeddingの確率分布を確率過程と考え、セグメンテーションを行う。
placeholder

新規性

動画をサブクラスの順序列とし、あるサブクラスから別のサブクラスに遷移する確率過程を考え、Viterbiアルゴリズムを適用している。

結果

従来の教師なし学習モデルを上回る精度を実現。Embeddingの手法としてImageNetでの事前学習や、I3Dと比較して本研究の手法が優位であることを示した。また、関連研究で用いられているMallow modelとViterbiアルゴリズムを比較し、Viterbiアルゴリズムが優位であることを示している。

その他(なぜ通ったか?等)