#210
summarized by : Hirokatsu Kataoka
Omnivore: A Single Model for Many Visual Modalities

どんな論文か?

画像・3D・動画像を認識できる汎用モデルを提案。ImageNet+Kinetics+SUN RGB-Dデータセットを同時に学習することで汎用特徴を獲得している。入力長が異なるが、バッチごとに入力を切り替えて順次学習。
placeholder

新規性

異なる複数のモダリティを統合的に学習できるところが新規性である。昨今の基盤モデル(Foundation Models)にも通じる。

結果

それぞれのタスクにおいて学習した場合よりも、統合的に学習した方が性能向上することを明らかにした。今後もモダリティ間の大統合が進みそうである。

その他(なぜ通ったか?等)

Project Page: https://facebookresearch.github.io/omnivore 今後はこの手のモダリティを跨いだ学習は自己教師あり学習により置き換えられるのだろうか?