Look Before You Speak: Visually Contextualized Utterances

#427

summarized by : Shintaro Yamamoto

Paul Hongsuck Seo, Arsha Nagrani, Cordelia Schmid

対話システムに関する研究は盛んに行われているが，現実世界では視覚的な情報も重要となる．しかし，従来のデータセットはアノテーションコストが高いという問題があった．そこで，未来の発話内容を予測することで視覚情報を考慮した対話システムを目指す．

動画のフレームと過去の発話内容を入力し，次の発話内容を予測するタスクを学習する．モデルはTransformerベースとなっており，co-transformerによって2つのモダリティを結合．本来であれば発話予測は生成タスクとなるが，問題を簡単にするためランキングタスクとして扱う．

学習したモデルは他のタスクに利用可能であり，vision-language GAデータセットであるMSRVTT-QA, MSVD-QA, ActivityNet-QA, How2QAにおいて性能向上を達成．

プロジェクトページ：https://google.github.io/look-before-you-speak/

このページで利用されている画像は論文から引用しています．