找回密码
 立即注册
首页 业界区 安全 强化学习--基于价值的强化学习(02)

强化学习--基于价值的强化学习(02)

釉她 2025-6-1 20:42:08
Action-Value Functions 动作价值函数

折扣回报(Discounted Return)

折扣回报 Ut 是从时间步 t 开始的累积奖励,公式为:
1.png


<ul>Rt 是在时间步 t 获得的奖励。

γ 是折扣因子(0

相关推荐

2025-11-15 08:06:27

举报

懂技术并乐意极积无私分享的人越来越少。珍惜
2026-1-8 15:02:03

举报

2026-1-19 17:00:27

举报

2026-1-20 10:54:23

举报

2026-1-21 16:47:28

举报

2026-2-6 04:22:06

举报

2026-2-9 12:30:51

举报

感谢发布原创作品,程序园因你更精彩
2026-2-11 03:51:39

举报

2026-2-13 10:59:15

举报

2026-2-16 03:34:31

举报

12下一页
您需要登录后才可以回帖 登录 | 立即注册