Describing Unseen Videos via Multi-Modal Cooperative Dialog Agents

#109

summarized by : Yue Qiu

Ye Zhu, Yu Wu, Yi Yang, Yan Yan

どんな論文か？

AIシステムのセキュリティ需要上で，ビデオデータに直接接触せずに理解できるタスクを提案．具体的，2つのAgentを定義し，Q-botがビデオの最初と最後のフレームワークしか持たない、A-botがビデオ、Captioning及び音声データを持つ、Q-botがビデオをCaptioningできるようにQA-botがダイアログをする．また，このタスクのための手法を提案し，既存SOTAと同レベル精度を達成．

新規性

①新しいvideo descriptionのタスクを提案，従来タスクにMulti-modal dialog agentsを導入，このタスクによりビデオ内容を見ないでビデオCaptioningできるQ-botの学習ができる；②QA-Cooperativeネットワークを提案し，有効的に２つのBot間の情報交換できる；

結果

①定性的結果により，提案のQ-botが有効的にビデオデータを接触せずにビデオ内容のCaptioningができた；②AVSDデータセットで有効的にA-botからQ-botまでのTransferを行えて，従来の強いベースラインと同レベル精度達成．

その他（なぜ通ったか？等）

①Video認識にMulti-agent を使った手法が少なかった．②学習済みのQ-botは実際にVideo内容を見なくてVideo内容の理解ができるので，Security重要がある場合に用いられる．

このページで利用されている画像は論文から引用しています．