4. 様々な学習方法
1. 学習アルゴリズムの種類
・強化学習アルゴリズム:
-
SAC
連続行動を持つ環境に適したオフポリシーのアルゴリズム。
エージェントが不確実性を管理しながら最適な行動を学ぶプロセスに焦点を当てます。 -
Discrete
離散行動の選択肢があるタスクに適したアルゴリズム。
例えば、「左」「右」「ジャンプ」のような固定アクションを選ぶ場合に利用します。
・強化学習の拡張技術:
-
セルフプレイ
エージェントが自分と対戦し、難易度を段階的に高めて学習する方法。 -
Curiosity
報酬の少ない環境でエージェントが自主的に 探索を促進する技法。 -
模倣学習
デモンストレーションに基づきエージェントが行動を学ぶ方法で、動きを模倣する技術。
2. 観察方法・環境設定
・観察手法:
-
VisualObservation
視覚情報(画像や映像)を基にした観察。
エージェントがカメラからの映像を分析し、物体の認識や位置情報を取得する学習を行います。 -
Raycast Observation
特定の方向にレイを飛ばして情報を取得する観察方法。
距離や衝突物体の情報を用いて、エージェントの空間認識力を高めます。
・環境変数:
- 環境パラメータのランダム化
学習中に環境の条件をランダム化し、エージェントが多様なシナリオに適応できるようにする手法 。
3. 学習プロセスの強化
・メタ学習
- LSTM(Long Short-Term Memory)
長期的な依存関係を学習するためのリカレントニューラルネットワーク構造。
例えば、過去の行動の履歴を考慮に入れた決定を行う際に有用です。
・学習進行管理:
- カリキュラム学習
学習難易度を徐々に上げることで、エージェントが段階的に複雑なタスクを習得できるようにする方法。