- …
- …
#72
summarized by : Masuyama Yoshiki
どんな論文か?
動画系列を複数の離散的なAudio-visual objectに変換し,objectごとの埋め込みを複数のダウンストリームタスクに適用する.自己教師あり学習したDNNで得られる動画のフレームごとアテンションをグルーピング,時系列方向に集約することで物体ごとの特徴を獲得する.
新規性
これまでのAudio-visual localizationでは音源らしい領域を表すアテンションマップ(or 何かしらのヒートマップ)を得て終わる手法がほとんどだった.動画の時系列情報を活かし,(1)アテンションマップから物体ごとの離散的な表現を獲得し(2)その特徴量が複数の後段のタスクで有効であることを示した、点がこの論文の大きな貢献.
結果
(1)話者の定位と追跡,(2)どの人間が話しているかの検出,(3)音源分離(4)揃っていない音と動画の修正,の4タスクで評価.特に,話者(の顔)の定位では従来のAudio-visual自己教師あり手法よりも大幅に性能改善.
その他(なぜ通ったか?等)
- …
- …