#267
summarized by : Yue Qiu
DAVD-Net: Deep Audio-Aided Video Decompression of Talking Heads

どんな論文か?

Low bit rateのVideoから,高質でVideoをReconstructする手法を提案.提案手法は①AudioとVideoの関連関係を学習;②Video compression standardsのencoder informationをDCNNにEncodeし,constraining projectモジュールによりReconstructionの質を向上した.
placeholder

新規性

①Audio-videoの関係性情報を利用し,Videoのdecompressionを行うことが新しい;②提案のDAVD-Netに対して,網羅的な構造・入力に関して実験を行っている.

結果

①Obama,VoxCeleb2などのデータセットにおいて,SOTAなPSNR/SSIMの結果を得られた;②VPB (Video Processing Branch ), APB (Audio Processing Branch), SAF (Spatial Attention Fusion), CPM (Constraining Projection Module)を用いたモデルが最も良い性能.

その他(なぜ通ったか?等)

AudioとVideoの関連関係のあたりが重要であるが研究が少ない.文章の中に,提案のフレームワークの異なる入力に対してExtensiveな実験を行っている.