#506
summarized by : hisaka koji
Read and Attend: Temporal Localisation in Sign Language Videos

どんな論文か?

CIC(Controllable Image Captioning)とは、指定された制御信号に応じて画像の説明を生成する技術です。は、ここ数年でかつてないほどの注目を集めています。
placeholder

新規性

新しい制御信号であるVerb-specific Semantic Roles (VSR)を提案する.VSRは、動詞といくつかの意味的役割から構成され、対象となる活動とその活動に関与するエンティティの役割を表します。次に、意味構造プランナー(SSP)を用いて、人間らしい記述的な意味構造を学習する。最後に、ロールシフトキャプションモデルを用いてキャプションを生成する。

結果

広範な実験とアブレーションにより、我々のフレームワークは、2つの困難なCICベンチマークにおいて、いくつかの強力なベースラインよりも優れた制御性を達成できることを実証する。また、マルチレベルの多様なキャプションを簡単に生成することができます。

その他(なぜ通ったか?等)

https://github.com/mad-red/VSR-guided-CIC