釉她 发表于 2025-6-1 20:42:08

强化学习--基于价值的强化学习(02)

Action-Value Functions 动作价值函数

折扣回报(Discounted Return)

折扣回报 Ut 是从时间步 t 开始的累积奖励,公式为:

<ul>Rt 是在时间步 t 获得的奖励。

γ 是折扣因子(0
页: [1]
查看完整版本: 强化学习--基于价值的强化学习(02)