Self-Supervised Learning of Audio-Visual Objects from Video

#72

summarized by : Masuyama Yoshiki

Triantafyllos Afouras, Andrew Owens, Joon Son Chung, Andrew Zisserman

どんな論文か？

動画系列を複数の離散的なAudio-visual objectに変換し，objectごとの埋め込みを複数のダウンストリームタスクに適用する．自己教師あり学習したDNNで得られる動画のフレームごとアテンションをグルーピング，時系列方向に集約することで物体ごとの特徴を獲得する．

新規性

これまでのAudio-visual localizationでは音源らしい領域を表すアテンションマップ（or 何かしらのヒートマップ）を得て終わる手法がほとんどだった．動画の時系列情報を活かし，（１）アテンションマップから物体ごとの離散的な表現を獲得し（２）その特徴量が複数の後段のタスクで有効であることを示した、点がこの論文の大きな貢献．

結果

（１）話者の定位と追跡，（２）どの人間が話しているかの検出，（３）音源分離（４）揃っていない音と動画の修正，の４タスクで評価．特に，話者（の顔）の定位では従来のAudio-visual自己教師あり手法よりも大幅に性能改善．

その他（なぜ通ったか？等）

このページで利用されている画像は論文から引用しています．