Extrinsic Reward(外部報酬)とCumulative Reward(累積報酬)は、強化学習における報酬の異なる側面を表しています。以下にその違いを説明します。
例: アイテム収集ゲーム
エージェントはフィールド内に散らばっているアイテムを収集するタスクに挑みます。アイテムには得点を得られるものや、ペナルティを受けるものがあります。エージェントはできるだけ多くの得点を得て、ペナルティを回避することが目標です。
1. Extrinsic Reward(外部報酬)
-
即時的な行動の評価:
- エージェントがフィールド上で「得点アイテム」を見つけて収集すると、+10の報酬をもらいます。
- エージェントが「ペナルティアイテム」にぶつかると、-5の報酬を受けます。
- また、制限時間内に多くのアイテムを収集できれば+20のボーナス報酬をもらうことができます。
これがExtrinsic Rewardです。この報酬はエージェントの行動に対して即座に与えられ、フィールド上でのアクションが良いか悪いかを示します。
2. Cumulative Reward(累積報酬)
-
エピソード全体を通じた報酬の合計:
- エージェントがエピソード(ゲームの1回のプレイ)を通して収集したアイテムに基づき、すべての報酬が蓄積されます。
- 例えば、エージェントが「得点アイテム」を10回収集し、+100の報酬を獲得します。途中で2回「ペナルティアイテム」にぶつかり、-10の報酬を受けた場合、エピソード終了時の累積報酬は +100 - 10 = +90 となります。
このCumulative Rewardは、エピソード終了時に計算される総合的な評価です。つまり、エージェントがエピソード全体を通じてどれだけ成功したかを示します。
まとめ
- Extrinsic Reward: エージェントがフィールドで行動を取るたびに得られる即時的な報酬。アイテムを収集するごとに、得点やペナルティとして報酬が与えられます。
- Cumulative Reward: エージェントがエピソード全体を通して得たすべてのExtrinsic Rewardを合計したもの。最終的にエピソードが終了した時点で、そのエージェントがどれだけの成功を収めたかを示す指標です。
このように、Extrinsic Rewardは行動ごとのフィードバックで、Cumulative Rewardはエピソード全体の結果を評価するものです。
3. 違い
- Extrinsic Rewardは、特定の瞬間に外部の環境から与えられる個々の報酬です。あるアクションに対して環境が評価を行い、即座に与えられるものです。
- Cumulative Rewardは、そのエピソード全体でエージェントが受け取ったすべての報酬の合計です。エージェントがどれだけ成功したか、または失敗したかの総合的な評価を示します。