#416
summarized by : Takuma Yagi
Towards Social Artificial Intelligence: Nonverbal Social Signal Prediction in a Triadic Interaction

どんな論文か?

社会的インタラクション理解のための社会的信号予測のタスクを提案。3人の会話場面における社会的信号(3次元姿勢、顔特徴点および手運動)データを収集し、会話状態、話者配置およびジェスチャの予測など複数のタスクの検討を行った。
placeholder

新規性

社会的信号予測問題の定式化。自由度が高く非侵襲の設定で高精度のノンバーバル信号を収集し、リッチな信号からの社会的インタラクション予測を行ったこと。

結果

3人のうち2人分のジェスチャを入力として残り1人の会話状態、話者配置およびジェスチャを予測するタスクを検討。姿勢、顔表情および身体運動のいずれもが予測性能上昇に寄与することを実証。

その他(なぜ通ったか?等)

CMUのPanoptic Studioを全面活用し、モーションキャプチャを用いずに精細な3次元情報を計測したからこそできる研究。限られた情報や制約付きの条件で類似タスクを行った研究はあったが本研究はデータ品質で明らかに一線を画している。ヒューマンロボットインタラクションなど多彩な応用があり今後取り組まれるべき領域。