#717
summarized by : siida
Object-Aware Aggregation With Bidirectional Temporal Graph for Video Captioning

どんな論文か?

Video Captioningにおいて、時系列の情報を上手く捉えるモデルobject-aware aggregation with bidirectional temporal graph(OA-BTG)を提案する。
placeholder

新規性

OA-BTGの新規性は主に以下の二点である。(1)video captionを双方向に見るBidirectional temporal graph, (2)時系列の内部表現とオブジェクトの内部表現をHierarchical attentionにより結合するObject-aware aggregation,

結果

MSVDおよびMSR-VTTを用いてRecNet[Wang+, CVPR-2018]などの先行研究と比較したところ、BLEU, METEOR, CIDErといった指標でSOTAであった。

その他(なぜ通ったか?等)

マルチモーダルやcontextを用いたマルチソースの研究が盛んになるにつれ、[Barardi+, CVPR-2017]などのHierarchical attention構造にスポットがあたっているように思われる。本論文もオブジェクトのエンコーダと時系列のエンコーダを用いたマルチエンコーダ構成になっており、Hierarchicalな構造が評価されたのではないか。