Identity-Aware Multi-Sentence Video Description

#125

summarized by : Keisuke Kamahori

Jae Sung Park, Trevor Darrell, Anna Rohrbach

どんな論文か？

これまでの多くの video description の研究では、人の識別をせず「SOMEONE」タグなどで代用していた。そこで、人を識別していない description と映像を用いて、そこに登場する人を同定するタスク(Fill-in the Identity)を提案した。

新規性

人の識別をしていない文章の中の「SOMEONE」タグを識別する(「PERSON1」などのタグにつけかえる)ために、Transformer を用いた手法を設計した。その際、ジェンダーに関する情報を利用した。また、上記手法を従来の video description のモデルで生成された文章に適用することを提案した。

結果

Fill-in the Identity のベンチマークにおいて、提案手法が SOTA を達成した。さらに、従来のモデルによって生成された文章に対しても提案手法がうまく働くことを示した。

その他（なぜ通ったか？等）

このページで利用されている画像は論文から引用しています．