VisualHow: Multimodal Problem Solving

#236

summarized by : QIUYUE

Jinhui Yang; Xianyu Chen; Ming Jiang; Shi Chen; Louis Wang; Qi Zhao

どんな論文か？

既存のVQAタスクでは、どうやって問題を解決するか（How）に関しての検討が不足している。また、特にステップバイステップで指定された問題に関して検討されてこなかった。ここで、How特にマルチステップが必要な場合のためのタスクを提案した。２万程度のReal-life問題とそれらを解決するステップ（画像とキャプション）から構成されるデータセットを提案。アノテーションなども密にアノテーションしている。

新規性

まず、実世界問題解決がで生きるAIに向けての新規なタスクとデータセットを提案した。提案タスクで質問から、Howを回答するために、マルチステップの画像と画像キャプションの形式で解答をしている。このタスクがいろんな面でまだまだChallenge的であり、今後の問題解決Vision and Language手法の開発に有用なベンチマークを提供した。

結果

提案データセットVisualHowにおいていくつか既存の手法をベンチマークした。attentionメカニズムの導入が良い性能を得るに重要であることを示した。また、VisualHowでのすべての手法の実験結果が人間精度と差が大きいため、今後手法に十分改善する余地があることを示した。

その他（なぜ通ったか？等）

どうやって問題を解決するかは日常生活において重要。この研究が将来的に実環境でさまざまな問題を解決できるAIに向けての一歩である。そのようなAIを実現するためにはまだまだいろんな課題がある。

このページで利用されている画像は論文から引用しています．