Omnivore: A Single Model for Many Visual Modalities

#210

summarized by : Hirokatsu Kataoka

Rohit Girdhar; Mannat Singh; Nikhila Ravi; Laurens van der Maaten; Armand Joulin; Ishan Misra

画像・3D・動画像を認識できる汎用モデルを提案。ImageNet+Kinetics+SUN RGB-Dデータセットを同時に学習することで汎用特徴を獲得している。入力長が異なるが、バッチごとに入力を切り替えて順次学習。

異なる複数のモダリティを統合的に学習できるところが新規性である。昨今の基盤モデル（Foundation Models）にも通じる。

それぞれのタスクにおいて学習した場合よりも、統合的に学習した方が性能向上することを明らかにした。今後もモダリティ間の大統合が進みそうである。

Project Page: https://facebookresearch.github.io/omnivore 今後はこの手のモダリティを跨いだ学習は自己教師あり学習により置き換えられるのだろうか？

このページで利用されている画像は論文から引用しています．