- …
- …
#717
summarized by : siida
どんな論文か?
Video Captioningにおいて、時系列の情報を上手く捉えるモデルobject-aware aggregation with bidirectional temporal graph(OA-BTG)を提案する。
新規性
OA-BTGの新規性は主に以下の二点である。(1)video captionを双方向に見るBidirectional temporal graph, (2)時系列の内部表現とオブジェクトの内部表現をHierarchical attentionにより結合するObject-aware aggregation,
結果
MSVDおよびMSR-VTTを用いてRecNet[Wang+, CVPR-2018]などの先行研究と比較したところ、BLEU, METEOR, CIDErといった指標でSOTAであった。
その他(なぜ通ったか?等)
マルチモーダルやcontextを用いたマルチソースの研究が盛んになるにつれ、[Barardi+, CVPR-2017]などのHierarchical attention構造にスポットがあたっているように思われる。本論文もオブジェクトのエンコーダと時系列のエンコーダを用いたマルチエンコーダ構成になっており、Hierarchicalな構造が評価されたのではないか。
- …
- …