#617
summarized by : Katsuyuki Nakamura
Ego-Exo: Transferring Visual Representations From Third-Person to First-Person Videos

どんな論文か?

三人称視点映像(Exo-centric video)を使った、一人称視点行動認識の事前学習手法。
placeholder

新規性

一人称視点っぽい映像をスコアリングしつつ表現学習するスキームが新規。一人称視点映像が(1)オブジェクト中心である、(2) 手とオブジェクトのインタラクションがある、といった特徴を活かして、Egocentric likelihoodを定義する。これらを予測する蒸留タスクを設けて3D-CNNを学習することで、Kineticsなどの大規模映像データを用いた高精度な事前学習を実現した。

結果

Kineticsデータセットから納得感のある一人称映像を抽出できた。このPre-trainingによって、一人称視点映像のデータセット(Charades-Ego、EPIC-Kitchens-100)でもSoTAを達成。

その他(なぜ通ったか?等)

https://github.com/facebookresearch/Ego-Exo