#72
summarized by : Masuyama Yoshiki
Self-Supervised Learning of Audio-Visual Objects from Video

どんな論文か?

動画系列を複数の離散的なAudio-visual objectに変換し,objectごとの埋め込みを複数のダウンストリームタスクに適用する.自己教師あり学習したDNNで得られる動画のフレームごとアテンションをグルーピング,時系列方向に集約することで物体ごとの特徴を獲得する.
placeholder

新規性

これまでのAudio-visual localizationでは音源らしい領域を表すアテンションマップ(or 何かしらのヒートマップ)を得て終わる手法がほとんどだった.動画の時系列情報を活かし,(1)アテンションマップから物体ごとの離散的な表現を獲得し(2)その特徴量が複数の後段のタスクで有効であることを示した、点がこの論文の大きな貢献.

結果

(1)話者の定位と追跡,(2)どの人間が話しているかの検出,(3)音源分離(4)揃っていない音と動画の修正,の4タスクで評価.特に,話者(の顔)の定位では従来のAudio-visual自己教師あり手法よりも大幅に性能改善.

その他(なぜ通ったか?等)