#179
summarized by : 金城 忍
Vx2Text: End-to-End Learning of Video-Based Text Generation From Multimodal Inputs

どんな論文か?

映像、音声から得られた特徴量を学習可能なトークンの集合に変換し、与えられらたタスク、発話及び対話の埋め込み表現と伴に、言語空間においてマルチモーダル共通空間を作成し、エンコーダ・デーコーダ形式で複数のテキスト生成問題に対応

新規性

マルチモーダルなテキスト生成タスクにおいて、映像、音声のモダリティの特徴量をトークン化し、言語空間において共通空間を作成することで、タスク毎のヘッドを使用せずに、複数のテキスト生成問題に取り組む点で新規

結果

映像を使用した質問応答、音声・映像に対する場面別の対話及び映像に対するキャプションの問題で、それぞれTVQA、AVSD及びTVCを使用して評価した結果、いずれにおいても既存手法より良い結果を達成

その他(なぜ通ったか?等)