Text2Scene: Generating Compositional Scenes From Textual Descriptions

#38

summarized by : Kiro Otsu

Fuwen Tan, Song Feng, Vicente Ordonez

どんな論文か？

ネットワーク圧縮とは、ニューラルネットワークのパラメータを削減することで計算的複雑性とメモリ消費を抑えることである。これまでの手法では、各層ごとにパラメータ行列を特異値分解（SVD）することで低ランクでの近似をし、計算の高速化を実現する手法があった。本論文では、ネットワーク全体を考慮して最適化している。（あとでまた編集します）

新規性

今までの手法ではレイヤーごとにSVDを使って低ランク近似をすることで高速化していたが、本論文ではネットワーク全体を考慮して正しいランクを選ぶ手法を提案している。

結果

VGG-16の圧縮ではFLOPsを25%削減し、accuracyを0.7%向上した。また、今まで正しいランクの探索には8GPUで4時間かかっていたが、本手法では1CPUで3分間で探索できた。

その他（なぜ通ったか？等）

このページで利用されている画像は論文から引用しています．