强化学习--基于价值的强化学习(02)

釉她发表于 2025-6-1 20:42:08

Action-Value Functions 动作价值函数

折扣回报（Discounted Return）

折扣回报 Ut 是从时间步 t 开始的累积奖励，公式为：

<ul>Rt 是在时间步 t 获得的奖励。

γ 是折扣因子（0

茅香馨 发表于 2025-11-15 08:06:27

懂技术并乐意极积无私分享的人越来越少。珍惜

挠溃症 发表于 2026-1-8 15:02:03

懂技术并乐意极积无私分享的人越来越少。珍惜

溧久苟 发表于 2026-1-19 17:00:27

用心讨论，共获提升！

拼潦发表于 2026-1-20 10:54:23

不错，里面软件多更新就更好了

边书仪 发表于 2026-1-20 14:06:58

感谢，下载保存了

忿惺噱 发表于 2026-1-21 01:21:16

热心回复！

剽达崖 发表于 2026-1-21 02:08:41

这个有用。

庇床铍 发表于 2026-1-21 16:47:28

谢谢分享，试用一下

奄蜊发表于 2026-1-30 03:28:14

感谢，下载保存了

欤夤发表于 2026-2-5 08:29:58

热心回复！

殳世英 发表于 2026-2-6 04:22:06

感谢分享，下载保存了，貌似很强大

痕伯发表于 2026-2-9 12:30:51

感谢发布原创作品，程序园因你更精彩

觐有发表于 2026-2-10 06:02:15

东西不错很实用谢谢分享

告陕无 发表于 2026-2-11 03:51:39

这个好，看起来很实用

怃膝镁 发表于 2026-2-13 10:59:15

鼓励转贴优秀软件安全工具和文档！

创蟀征 发表于 2026-2-16 03:34:31

收藏一下不知道什么时候能用到

靳谷雪 发表于 2026-2-23 05:10:39

收藏一下不知道什么时候能用到

懵径发表于 2026-2-24 15:09:45

不错，里面软件多更新就更好了

缍米发表于 2026-2-25 16:21:35

谢谢楼主提供！

页: [1] 2

程序园's Archiver