#734
summarized by : 福沢栄治
Exploring Data Aggregation in Policy Learning for Vision-Based Urban Autonomous Driving

どんな論文か?

データ集約手法は、特定のシミュレーション条件での運転の学習など、トレーニング環境内でのビジョンベースのポリシー学習を大幅に改善できます。この論文の主な貢献は、密集した都市の自動運転のためのデータ集約手法について、総括的な分析が行いました。
placeholder

新規性

運転行動に関して学習したポリシーに提供するユーティリティに基づいて、収集されたオンポリシーデータから重要な状態をサンプリングします。かつ、ポリシーの状態分布の不確実性の高い領域に徐々に焦点を当てる再生バッファーを組み込みます。

結果

この手法には、運転ポリシーが専門家パフォーマンスの87%を達成し、都市運転においてもっと暗黙的な視覚表現を学習できることを実験的に検証しました。

その他(なぜ通ったか?等)