#562
summarized by : QIUYUE
Semi-Supervised Video Paragraph Grounding With Contrastive Encoder

どんな論文か?

ビデオから複数のセンテンスで内容を説明するVIdeo Paragraph Generationタスクでは従来、センテンス間の関係学習にやや性能が弱い、また大量な学習データが必要とする。ここで、パラグラフ内の関係学習と学習データセットサイズの削減に着目した。具体的に、TransformerベースとしたContrastive Learningの手法を構築した。
placeholder

新規性

従来ビデオの一つのセンテンスによりキャプションする研究が広く検討されている一方、Paragraph生成の研究が比較的に少なかった。ここで、新たな手法を提案し、Paragraph内部の複数のセンテンス間の関係性をTransformerにより学習。また、Semi-supervised学習フレームワークを導入し、ラベリングコストが高いTemporalデータのアノテーションに対しての依存性を減らせた。

結果

3つの既存データセットActivityNet-Caption, Charades-CD-OOD, TACoSにおいて少ない学習データで既存のSOTA手法と同レベルの精度を達成した。また、既存SOTA手法と同じスケールのデータで学習した場合でSOTAを達成。

その他(なぜ通ったか?等)

Visual Storytellingに類似している部分がある。センテンスとVideoのアラインメント、そして、複数のセンテンス間のアラインメント両方が必要である。