- …
- …
#544
summarized by : Katsuyuki Nakamura
どんな論文か?
手とモノのインタラクションに関する大規模データセット100DOH(100 Days of Hands)を構築。画像を入力として、(1) 左右の手の矩形、(2) 触っているモノの矩形、(3) 手とモノの接触状態(なし、自身、他人、可搬物体など)を出力するネットワークを提案。高い汎化性能が特徴。
新規性
モデルの新規性はマイナーと思うが、なんといってもデータセットの新規性が大きい。11カテゴリに分類された131日分のYouTube動画、うち約100K枚の画像/189K個の手/140K個のモノにアノテーション済。
結果
100DOHデータセットで学習したモデルを、5種類のデータセット(VLOG、VIVA、EgoHands、VGGHands、TV+Co)でテスト、高い汎化性能が確認された。一人称視点映像で学習したモデルは汎化性能が低いが、見た目が異なるので想定内の挙動。性能を改善したモデルがWEBサイトで公開されている。また、アプリケーションとして、手の3次元メッシュ推定や、把持方法の予測も実現した。
その他(なぜ通ったか?等)
大規模データセットと、高い性能、今後の発展性が評価されたと考える。データセット、モデル、コードは以下で公開済。
https://fouheylab.eecs.umich.edu/~dandans/projects/100DOH/
- …
- …