ECCV2022論文サマリ

tag: vision-+-audio

PACS: A Dataset for Physical Audiovisual Commonsense Reasoning

by: Shingo Nakazawa

Dataset Multi modal Representation learning Video Physical commonsense reasoning Vision + audio