Learning Goals From Failure

#279

summarized by : Kensho Hara

Dave Epstein, Carl Vondrick

人の行動の目的を推定できるようにするために，意図していない行動の動画を用いて学習するという研究．3D CNNで抽出した各Clipの特徴表現をTransformerに入力することで行動目的の表現を実現するモデルを提案．

意図していない行動のデータを用いた学習により，行動の本当の目的に関する表現を獲得するというアプローチが新規性．加えて，学習及び評価のためにOops! datasetに添付画像のような追加アノテーションもしている．

意図していない行動の学習により，Kineticsなどの大規模動画データセット（意図した行動）での学習に近い/を超える精度で行動の目的の推定が可能なことを示した．（ただベースラインとはモデルが違うのでそこの比較になっていないような気も？）

Oops! datasetの著者の続編． Project page: https://aha.cs.columbia.edu

このページで利用されている画像は論文から引用しています．