Object-Aware Aggregation With Bidirectional Temporal Graph for Video Captioning

#717

summarized by : siida

Junchao Zhang, Yuxin Peng

どんな論文か？

Video Captioningにおいて、時系列の情報を上手く捉えるモデルobject-aware aggregation with bidirectional temporal graph(OA-BTG)を提案する。

新規性

OA-BTGの新規性は主に以下の二点である。(1)video captionを双方向に見るBidirectional temporal graph, (2)時系列の内部表現とオブジェクトの内部表現をHierarchical attentionにより結合するObject-aware aggregation,

結果

MSVDおよびMSR-VTTを用いてRecNet[Wang+, CVPR-2018]などの先行研究と比較したところ、BLEU, METEOR, CIDErといった指標でSOTAであった。

その他（なぜ通ったか？等）

マルチモーダルやcontextを用いたマルチソースの研究が盛んになるにつれ、[Barardi+, CVPR-2017]などのHierarchical attention構造にスポットがあたっているように思われる。本論文もオブジェクトのエンコーダと時系列のエンコーダを用いたマルチエンコーダ構成になっており、Hierarchicalな構造が評価されたのではないか。

このページで利用されている画像は論文から引用しています．