GATSBI: Generative Agent-Centric Spatio-Temporal Object Interaction

#606

summarized by : QIU YUE

Cheol-Hui Min, Jinseok Bae, Junho Lee, Young Min Kim

どんな論文か？

ロボットInteractionのための，ビデオから，Agent，背景、物体の特徴表現を分離できる新たな生成モデルGATSBIを提案．更に，GATSBIが異なる分離されたEntities間の因果関係の学習と未来の状態の推定ができる．実験結果により提案手法が様々なシミュレーション環境において汎化性能が高く、将来的にロボット系の強化学習タスクにおいての有効性が示唆された。

新規性

①手法的新規性がある。ロボットアームシステムにおいて、ビデオからAgent（ロボットアーム自体）、操縦する物体、背景などを視覚上分離・理解できることが重要であり，この研究でビデオからこれらをDecompositionした特徴表現モデルGATSBIを提案。GATSBIはUnsupervised object-centric scene representationにより特徴表現を学習する。

結果

①異なるタイプのロボットやロボットとInteractionする物体において汎化性能を示した。②既存のベンチマークデータセットにおいて、SoTAなScene decompositionとVideo predictionの性能を示した。

その他（なぜ通ったか？等）

このページで利用されている画像は論文から引用しています．