#109
summarized by : Yue Qiu
Describing Unseen Videos via Multi-Modal Cooperative Dialog Agents

どんな論文か?

AIシステムのセキュリティ需要上で,ビデオデータに直接接触せずに理解できるタスクを提案.具体的,2つのAgentを定義し,Q-botがビデオの最初と最後のフレームワークしか持たない、A-botがビデオ、Captioning及び音声データを持つ、Q-botがビデオをCaptioningできるようにQA-botがダイアログをする.また,このタスクのための手法を提案し,既存SOTAと同レベル精度を達成.
placeholder

新規性

①新しいvideo descriptionのタスクを提案,従来タスクにMulti-modal dialog agentsを導入,このタスクによりビデオ内容を見ないでビデオCaptioningできるQ-botの学習ができる;②QA-Cooperativeネットワークを提案し,有効的に2つのBot間の情報交換できる;

結果

①定性的結果により,提案のQ-botが有効的にビデオデータを接触せずにビデオ内容のCaptioningができた;②AVSDデータセットで有効的にA-botからQ-botまでのTransferを行えて,従来の強いベースラインと同レベル精度達成.

その他(なぜ通ったか?等)

①Video認識にMulti-agent を使った手法が少なかった.②学習済みのQ-botは実際にVideo内容を見なくてVideo内容の理解ができるので,Security重要がある場合に用いられる.