5_0
-
Unity公式サンプル
-
3DBall
観察の収集方法2種類- 「BehaviorParameters」とAgent.CollectObservations()
- スクリプトで[Observale]を使う方法(Ball3DHardAgent.cs)
提供されているシーン
・3DBall:観察に加速度がある
・3DBAllHard:観察に加速度がない
・Visual3DBall:カメラセンサーでの学習
- GridWorld
行動マスク(グリッド外に行かないように)
- PushBlock
模倣学習(imitation)
- Pyramid
Curiosity + 模倣学習
(エージェントに好奇心を持たせ、未知の状態への探索を促し、「模倣学習」を使ってエージェントが報酬にたどり着く行動を人間が教えてあげることで、学習効率をあげることができる)
- WallJump
カリキュラム学習
レッスン0:ジャンプなしにゴールできる環境
レッスン1:ジャンプしないとゴールできない環境
レッスン2:ブロックを足場にしてジャンプしないとゴールできない環境
レッスン3:常に壁が最も高い環境
- Hallway
LSTM(Long Short-Term Memory) (模倣学習 imitationも用 意されている)
- Worm JointDriveControllerを利用 速度報酬✖️方向報酬
- Crawler JointDriveControllerを利用 速度報酬✖️方向報酬
- Walker
JointDriveControllerを利用 速度報酬✖️方向報酬
- FoodCollector
GridSensorの利用
- Basic
「カスタムセンサー」と「カスタムアクチュエータ」を利用する学習環境サンプル
- Match3
独自のセンサーで独自の観察の定義を。独自のアクチュエータで独自の行動の定義を行なっている
- Sorter
可変長な観察 BufferSensorの利用 カリキュラム学習
- Soccer
MA-POCA(MultiAgent POsthumous Credit Assignment)による協調行動の学習
- CooperativePushBlock
MA-POCAを利用して協調行動を学習する
- DungeonEscape
RigidbodySensor と MA-POCA の利用
-