#544
summarized by : Katsuyuki Nakamura
Understanding Human Hands in Contact at Internet Scale

どんな論文か?

手とモノのインタラクションに関する大規模データセット100DOH(100 Days of Hands)を構築。画像を入力として、(1) 左右の手の矩形、(2) 触っているモノの矩形、(3) 手とモノの接触状態(なし、自身、他人、可搬物体など)を出力するネットワークを提案。高い汎化性能が特徴。
placeholder

新規性

モデルの新規性はマイナーと思うが、なんといってもデータセットの新規性が大きい。11カテゴリに分類された131日分のYouTube動画、うち約100K枚の画像/189K個の手/140K個のモノにアノテーション済。

結果

100DOHデータセットで学習したモデルを、5種類のデータセット(VLOG、VIVA、EgoHands、VGGHands、TV+Co)でテスト、高い汎化性能が確認された。一人称視点映像で学習したモデルは汎化性能が低いが、見た目が異なるので想定内の挙動。性能を改善したモデルがWEBサイトで公開されている。また、アプリケーションとして、手の3次元メッシュ推定や、把持方法の予測も実現した。

その他(なぜ通ったか?等)

大規模データセットと、高い性能、今後の発展性が評価されたと考える。データセット、モデル、コードは以下で公開済。 https://fouheylab.eecs.umich.edu/~dandans/projects/100DOH/