登录
/
注册
首页
论坛
其它
首页
科技
业界
安全
程序
广播
Follow
关于
每日签到
每天签到奖励2圆-6圆
发帖说明
VIP申请
登录
/
注册
账号
自动登录
找回密码
密码
登录
立即注册
搜索
搜索
关闭
CSDN热搜
程序园
精品问答
技术交流
资源下载
本版
帖子
用户
软件
问答
教程
代码
写记录
写博客
VIP申请
VIP网盘
网盘
联系我们
每日签到
道具
勋章
任务
设置
我的收藏
退出
腾讯QQ
微信登录
返回列表
首页
›
业界区
›
安全
›
强化学习--基于价值的强化学习(02)
强化学习--基于价值的强化学习(02)
[ 复制链接 ]
釉她
2025-6-1 20:42:08
Action-Value Functions 动作价值函数
折扣回报(Discounted Return)
折扣回报
Ut
是从时间步
t
开始的累积奖励,公式为:
<ul>Rt 是在时间步
t
获得的奖励。
γ
是折扣因子(0
强化
学习
基于
价值
相关帖子
基于LangChain的Ai应用开发平台
准备工作之指针与数组[基于郝斌课程]
salesforce零基础学习(一百四十四)External Client App浅谈
每周读书与学习->初识JMeter 元件(一)
彩笔运维勇闯机器学习--决策树
准备工作之结构体[基于郝斌课程]
彩笔运维勇闯机器学习--随机森林
关于寻找深度学习Baseline和IDEA的思考
Flutter应用架构设计:基于Riverpod的状态管理最佳实践
基于开源IM即时通讯框架MobileIMSDK:RainbowChat-iOS端v10.0版已发布
vip免费申请,1年只需15美金$
回复
使用道具
举报
提升卡
置顶卡
沉默卡
喧嚣卡
变色卡
千斤顶
照妖镜
相关推荐
业界
基于LangChain的Ai应用开发平台
0
702
呶募妙
2025-09-06
安全
准备工作之指针与数组[基于郝斌课程]
0
338
狭踝仇
2025-09-07
业界
salesforce零基础学习(一百四十四)External Client App浅谈
0
761
琉艺戕
2025-09-07
业界
每周读书与学习->初识JMeter 元件(一)
0
849
赖珊
2025-09-08
业界
彩笔运维勇闯机器学习--决策树
0
203
巨耗
2025-09-09
安全
准备工作之结构体[基于郝斌课程]
0
460
时思美
2025-09-09
业界
彩笔运维勇闯机器学习--随机森林
0
563
空娅芬
2025-09-11
安全
关于寻找深度学习Baseline和IDEA的思考
0
116
迭婵椟
2025-09-11
业界
Flutter应用架构设计:基于Riverpod的状态管理最佳实践
0
281
但婆
2025-09-11
安全
基于开源IM即时通讯框架MobileIMSDK:RainbowChat-iOS端v10.0版已发布
0
418
闰咄阅
2025-09-11
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
回复
本版积分规则
回帖并转播
回帖后跳转到最后一页
签约作者
程序园优秀签约作者
发帖
釉她
2025-6-1 20:42:08
关注
0
粉丝关注
14
主题发布
板块介绍填写区域,请于后台编辑
财富榜{圆}
敖可
9984
杭环
9988
凶契帽
9988
4
氛疵
9988
5
黎瑞芝
9988
6
猷咎
9986
7
里豳朝
9986
8
肿圬后
9986
9
蝓俟佐
9984
10
虽裘侪
9984
查看更多