#193
summarized by : Shuhei M. Yoshida
Human Hands As Probes for Interactive Object Understanding

どんな論文か?

一人称視点映像から、人の手と相互作用している物体の認識を学習する。特に、(a) 手との相互作用状態に敏感な特徴表現を学習することと (b)(COCOの80クラスなど)予め定められた物体クラス以外の物体に対しても物体のアフォーダンス領域を認識することを目指す。
placeholder

新規性

人の手を検知する汎用・高精度なモデルが手に入ることを利用し、上記2点を教師なしで実行すること。(a)については、物体領域の特徴量を対照学習する際に手との相互作用状態の類似性に応じてpositive/negativeペアを設定するTSC+OHCを提案。また、(b)については、手の周囲の領域から、手と物体が相互作用している領域を予測するACPを提案。

結果

一人称映像からの行動認識ベンチマークであるEPIC-Kitchensに、追加でアノテーションを作成。物体との相互作用状態を予測するEPIC-Stateでは、TSC-OHCで学習した特徴抽出器がImageNetなど従来法による特徴抽出器よりも高い分類精度を達成。また、アフォーダンス領域を予測するEPIC-ROIでは、特にCOCOに含まれないカテゴリーの物体に対して従来法を上回る結果を得た。

その他(なぜ通ったか?等)