#239
summarized by : QIUYUE
MERLOT Reserve: Neural Script Knowledge Through Vision and Language and Sound

どんな論文か?

人間がマルチモーダルから構成される世界を認識している。ただし、現状のAIモデルはまだビデオ、言語、音声の融合理解能力が足りていない。上記の融合理解のための新たな学習方法を提案。提案手法はビデオ、ステップごとのキャプション、音声を融合する。また、上記の3つのモダリティをMaskし、Transformer構造を利用したマルチモダリティRepresentationの学習をした。
placeholder

新規性

視覚、言語、音声を密に融合し理解するための新しいタスク設定の提案(/学習手法)。提案の学習手法が有効的にマルチモダリティの特徴表現を学習できる。また、今までビデオとテキストの融合が多く検討されたが、音声に関しての検討が少なかった。ここで改めて音声の重要性と有用性を実験で示した。

結果

提案のMasked Transformerベースのマルチモダリティ特徴表現学習手法を用いて、Visual Commonsense Reasoning、TVQA、Kinetics-600などのデータセットでSOTAな精度を実現した。また、提案手法がSituated Reasoningベンチマークにおいて、Supervisedな手法と同レベルなZero-shot精度を達成。  

その他(なぜ通ったか?等)

Step-by-stepで、もっと詳細的なVisual,Textual,Audioのアラインメントが需要されてきて、実現可能なレベルに進められている。こちらの研究とViLBERTと結構似ている。