5-14 Soccer
Soccerの概要
「Soccer」はエージェントがチームで対戦するサッカーゲームの学習環境です。「エージェント」は、前後進と左右移動の行動をとることができます。相手ゴールにボールが入った時は(1.0 - 現在のでステップ / maxStep)のグループ報酬、自分のゴールにボールが入った時は「-1.0」のグループ報酬となります。
エージェントには「Generic」と「Striker」と「Goalie」という3つの役割(ポリシー)があり、それぞれ異なる報酬で学習させています。
・Generic:攻守の両方の役割を担うプレイヤー
・Striker:相手チームのゴールにボールを入れる役割を担うストライカー
・Goalie:自分チームのゴールにボールが入らないように阻止する役割を担うキーパー
「MA-POCA」を利用して、協調行動を学習する学習環境のサンプルになります。
提供されているシーン
「Soccer」のシーンは、「Assets/ML-Agents/Examples/Soccer/Scenes」で提供されています
・SoccerTwos:「Generic ✖︎ 2」対「Generic ✖︎ 2」で対戦する学習環境
・StrikersVsGoalie:「Striker ✖︎ 2」対「Goalie ✖︎ 1」で対戦する学習環境
ヒューリスティックモードのキー操作
W:前進,S:後進
A:左移動,D:右移動
E:左回転,Q:右回転
強化学習の要素
| 項目 | 説明 |
|---|---|
| 観察 | ・RaycastObservation(スタック3) |
| 行動 | ・Discrete(サイズ3) 0:前後進(0:なし、1:前進、2:後進) 1:左右移動(0:なし、1:左移動、2:右移動) 左右回転(0:なし、1:左回転、2:右回転) |
| 報酬 | ・相手ゴールにボールが入った時は「1.0 - 現在のステップ / maxStep」のグループ報酬(エピソード完了) ・自分のゴールにボールが入った時は「-1.0」のグループ報酬(エピソード完了) ・毎ステップ「-0.5 / maxStep」 ・さらにStrikerは、毎ステップ「-1 / maxStep」 ・さらにGoalieは、「+1 / maxStep」 |
| 決定 | ・5ステップ毎 |
学習設定ファイル
提供されている学習設定ファイルは、次の2つです SoccerTwos用
・config/poca/SoccerTwos.yaml:POCA