#225
summarized by : Haruhi Shida
Learning to Drive by Watching YouTube Videos: Action-Conditioned Contrastive Policy Pretraining

どんな論文か?

深層強化学習は、ロボット操作や自動運転などの制御タスクにおいて有望な結果を得ている。しかし、学習環境との膨大な数のオンラインインタラクションを必要とするため、実世界での応用は限定的である。そこで本研究では、数時間に及ぶ未監視のYouTube動画を視聴することで、運転タスクのための政策表現を事前学習することを目的とする.提案手法は下流タスクにおいてこれまでの事前学習手法を上回り大幅な改善を示した.
placeholder

新規性

現状,強化学習や模倣学習などの基礎となるアルゴリズムのサンプル効率は低いままである。最近の多くの研究は、教師なし学習とデータ補強を用いて、政策学習の前に神経表現を事前学習することにより、サンプル効率を向上させている。本研究では未加工のYoutube動画を用いた新しい対照的政策事前学習法ACOを提案.提案手法はこれまでの研究とは違ったアプローチでサンプル効率を向上させることが期待される.

結果

提案手法は擬似行動ラベルを持つ未ラベル動画フレームから行動条件付き特徴を学習することで、学習した表現の汎化性を大幅に向上させ、下流のタスクの精度改善をもたらすことが実験からわかった.(添付画像)

その他(なぜ通ったか?等)

【Limitation】 アクション情報を用いた事前学習により汎化可能な表現が得られるにもかかわらず、我々は、1つのビデオフレーム内の各運転シーンに対応するアクションは1つだけという強い仮定を組み込んでいる.また、行動条件付き対比学習は、切り抜きや反転などの広く用いられている幾何学的認識拡張と競合し、特徴量のインスタンス識別能力を抑制してしまうという問題がある。