DAPO浅析

副我 · 2025-10-19 00:35:22

论文地址 https://arxiv.org/abs/2503.14476
参考实验：DAPO + vLLM v1 + VeRL —— VOC性能比较
Motivation

没有完整的GRPO训练R1-32B的框架
目标：

降低错误样本的长度 (token-level loss)
训练更加稳定 (overlong filter)
避免generation entropy的塌陷（higher clip）
提高训练效率（dynamic sample）

Method

整体优化目标如下

\[\mathcal{J} = \mathbb{E}_{(q,a)\sim \mathcal{D}, \{o_i\}_{i=1}^G\sim \pi_{old}(\cdot|q)} [\frac{1}{\sum_{i=1}^G|o_i|}\sum_{i=1}^G\sum_{t=1}^{|o_i|}\min(r_{i,t}(\theta)A_{i, t}, clip(r_{i,t}(\theta),1-\epsilon_{low}, 1+\epsilon_{high})A_{i,t})]\\s.t.\ 0

幽淆 · 2025-10-30 01:03:40

热心回复！

连热 · 2025-11-12 18:12:11

热心回复！

筒濂 · 2025-12-1 06:29:45

感谢，下载保存了

滥眩 · 2025-12-9 10:40:46

谢谢分享，试用一下

赖珊 · 2025-12-11 05:18:14

感谢发布原创作品，程序园因你更精彩

汪玉珂 · 2026-1-9 12:13:05

感谢分享

徙办 · 2026-1-15 05:41:28

yyds。多谢分享

匣卒 · 2026-1-18 03:13:12

谢谢分享，辛苦了

左优扬 · 2026-1-21 13:38:58

分享、互助让互联网精神温暖你我

告陕无 · 2026-1-21 14:04:02

鼓励转贴优秀软件安全工具和文档！

王妍芳 · 2026-1-22 03:59:29

很好很强大我过来先占个楼待编辑

窟聿湎 · 2026-1-24 08:25:58

这个好，看起来很实用

数察啜 · 2026-2-1 06:38:03

东西不错很实用谢谢分享

谭皎洁 · 2026-2-3 04:21:04

这个好，看起来很实用

村亢 · 2026-2-5 10:49:11

用心讨论，共获提升！

丘娅楠 · 2026-2-7 03:13:33

新版吗？好像是停更了吧。

汪玉珂 · 2026-2-7 23:55:41

收藏一下不知道什么时候能用到

锟及 · 2026-2-8 06:05:46

新版吗？好像是停更了吧。

骆贵 · 2026-2-8 17:50:52

过来提前占个楼

账号		自动登录	找回密码
密码			立即注册

DAPO浅析

相关帖子

回复

浏览过的版块

签约作者

DAPO浅析

相关帖子

相关推荐

回复

浏览过的版块

签约作者