Deep RNN Framework for Visual Sequential Applications

#345

summarized by : cfiken

Bo Pang, Kaiwen Zha, Hanwen Cao, Chen Shi, Cewu Lu

どんな論文か？

Visual Sequential タスクのためのモデルに2つの新しい設計(セルでの情報の分離、学習時の長い系列の分割の工夫)を取り入れることで、より Deep な構造のモデルでも学習ができるようになることを実験的に示した。実験では、既存の Shallow なモデルに対して15層のネットワークを提案手法で学習に成功し、性能を大きく改善した。

新規性

今まで学習の難しさや計算量の問題で Deep なネットワークではうまく行かなかった Visual Sequential タスクで、15層といった Deep なモデルで学習に成功した。また、情報を temporal と representation で分けた RNN セル、及び overlap 間で情報を受け渡しつつ分割された長い系列のデータを学習に使う方法は初。

結果

15層の Deep なモデルにより、既存の Shallow なモデルの性能を大きく上回った。Polygon-RNN の RNN の部分のみを提案モデルで置き換えることで、既存性能を約14%改善した。video future prediction のタスクでは同じく Deep なモデルで SoTA を2.4%更新した。

その他（なぜ通ったか？等）

今まで学習が難しかった Deep な RNN による学習が成功したことで、CV系タスクのように性能が上がっていくことが期待できる。

このページで利用されている画像は論文から引用しています．