3-5 学習設定ファイル
2の「学習と推論」での設定について
ここで紹介するもの以外に「セルフプレイ」「Curiosity」「模倣学習」「LSTM」専用のパラメー タも存在しますが、そちらは別で言及します
学習設定ファイルとは
「学習設定ファイル」(*.yaml)は、学習に利用するハイパーパラメータを設定するファイルです。
機械学習のパラメータの中で、人間が調整する必要があるパラメータのことを「ハイパーパラメータ」と呼びます。
学習設定ファイルは1環境につき1つ用意する必要があります。
学習について
強化学習においては、通常ステップごとにニューラルネットワークのパラメータを更新しています。
具体的には、エージェントは各ステップで行動を選択し、環境から観察と報酬を得ます。この過程で経験(観察、行動、報酬、次の観察)が蓄積され、それに基づいてニューラルネットワークのパラメータが調整されます。
一方で、エピソードは、ある一連のステップ(例えば、ゲーム内で目的地に到達する、またはエージェントが失敗するまでの時間)を指します。エピソードが終わるたびに環境がリセットされますが、ニューラルネットワークのパラメータ更新自体はエピソードの終了を待たず、通常はステップごとに行われます。