程序园's Archiver
社区
›
安全
› 强化学习--基于价值的强化学习(02)
釉她
发表于 2025-6-1 20:42:08
强化学习--基于价值的强化学习(02)
Action-Value Functions 动作价值函数
折扣回报(Discounted Return)
折扣回报 Ut 是从时间步 t 开始的累积奖励,公式为:
<ul>Rt 是在时间步 t 获得的奖励。
γ 是折扣因子(0
页:
[1]
查看完整版本:
强化学习--基于价值的强化学习(02)