4D Spatio-Temporal ConvNets: Minkowski Convolutional Neural Networks

#494

summarized by : Hideki Tsunashima

Christopher Choy, JunYoung Gwak, Silvio Savarese

どんな論文か？

3次元動画(depthやLIDARを使って計測した動画)をCNNで処理するにあたって、3次元のままスパースな畳み込みを行い、時間軸と合わせた4次元のCNNとRGBの要素も織り交ぜた7次元のCNNを提案。上記の手法を提案することで3次元動画をそのまま処理することが可能かつ、スパースな畳み込みによりべき乗で増える計算量を削減し、既存の2次元の畳み込みのネットワークよりも高いスコアを達成。

新規性

3次元動画を3次元のまま処理することを可能にしたネットワークを提案した点かつ、3次元のまま処理しても次元が増えるごとにべき乗で増える計算量を増えないようなスパースな畳み込みを提案した点。

結果

ScanNet, Stanford 3D Indoor Spaces(S3DIS), RueMonge 2014(Varcity), Synthia 4Dのデータセットを用いたセマンティックセグメンテーションにて全てでSOTAを達成。

その他（なぜ通ったか？等）

3次元動画をそのまま処理可能かつ、3次元にしたことによってべき乗で増大する計算量を畳み込みをスパースにする工夫を用いて減らし、4つのデータセットにて圧倒的な高スコア(mIoUで既存手法を20%以上引き離すという驚異的な高スコア)を達成した点から通ったと考えられる。

このページで利用されている画像は論文から引用しています．