#472
summarized by : Shintaro Yamamoto
ActBERT: Learning Global-Local Video-Text Representations

どんな論文か?

動画中の局所的に映っている物体と大域的な行動を考慮した事前学習モデルActBERTを提案。動画のフレームを抽出してBERTに入力するVideoBERTでは、写っている物体同士の関係など局所的な情報が損なわれてしまうため、視覚情報を局所情報と大域情報に分離する。
placeholder

新規性

言語トークンに加えて、3D CNNにより得られたaction特徴及び、Faster R-CNNにより得られた物体の特徴を入力とする。Tangled Transformerと呼ばれるモデルを構築し、他の2つのモダリティをkeyとvalueとして処理をする。

結果

Video captioning, action segmentation, action step localization, text-video clip retrieval, video question answeringの5つのタスクに適用可能であることを確認。

その他(なぜ通ったか?等)

メモリ消費がすごそう