#427
summarized by : Shintaro Yamamoto
Look Before You Speak: Visually Contextualized Utterances

どんな論文か?

対話システムに関する研究は盛んに行われているが,現実世界では視覚的な情報も重要となる.しかし,従来のデータセットはアノテーションコストが高いという問題があった.そこで,未来の発話内容を予測することで視覚情報を考慮した対話システムを目指す.
placeholder

新規性

動画のフレームと過去の発話内容を入力し,次の発話内容を予測するタスクを学習する.モデルはTransformerベースとなっており,co-transformerによって2つのモダリティを結合.本来であれば発話予測は生成タスクとなるが,問題を簡単にするためランキングタスクとして扱う.

結果

学習したモデルは他のタスクに利用可能であり,vision-language GAデータセットであるMSRVTT-QA, MSVD-QA, ActivityNet-QA, How2QAにおいて性能向上を達成.

その他(なぜ通ったか?等)

プロジェクトページ:https://google.github.io/look-before-you-speak/