Adversarial Inference for Multi-Sentence Video Description

#850

summarized by : Ryota Natsume

Jae Sung Park, Marcus Rohrbach, Trevor Darrell, Anna Rohrbach

どんな論文か？

動画に対して複数の文章を説明文として出力する研究。特に、説明文の質に着目して、どのように複数の文章を選択するかに注目している。

新規性

Video descriptionのための、Adversarial Inferenceを提案。各クリップに対して、説明文を漸進的にサンプルしていき、その中からdiscriminatorのscoreが高いものを選ぶ。discriminatorは、「ビデオとの見た目の関係性」「言葉の多様さ流暢さ」「文の一貫性」の三つのハイブリッド型を提案

結果

Activity Net Captions datasetで評価を行い、ユーザが提案手法で生成された文章を好むことを確認。

その他（なぜ通ったか？等）

このページで利用されている画像は論文から引用しています．