找回密码
 立即注册
首页 业界区 业界 DAPO浅析

DAPO浅析

副我 2025-10-19 00:35:22
论文地址 https://arxiv.org/abs/2503.14476
参考实验:DAPO + vLLM v1 + VeRL —— VOC性能比较
Motivation

没有完整的GRPO训练R1-32B的框架
目标:

  • 降低错误样本的长度 (token-level loss)
  • 训练更加稳定 (overlong filter)
  • 避免generation entropy的塌陷(higher clip)
  • 提高训练效率(dynamic sample)
Method

整体优化目标如下

\[\mathcal{J} = \mathbb{E}_{(q,a)\sim \mathcal{D}, \{o_i\}_{i=1}^G\sim \pi_{old}(\cdot|q)} [\frac{1}{\sum_{i=1}^G|o_i|}\sum_{i=1}^G\sum_{t=1}^{|o_i|}\min(r_{i,t}(\theta)A_{i, t}, clip(r_{i,t}(\theta),1-\epsilon_{low}, 1+\epsilon_{high})A_{i,t})]\\s.t.\ 0

相关推荐

2025-12-9 10:40:46

举报

2025-12-11 05:18:14

举报

2026-1-21 13:38:58

举报

2026-1-21 14:04:02

举报

2026-1-22 03:59:29

举报

很好很强大  我过来先占个楼 待编辑
2026-2-3 04:21:04

举报

2026-2-5 10:49:11

举报

2026-2-7 03:13:33

举报

2026-2-8 06:05:46

举报

12下一页
您需要登录后才可以回帖 登录 | 立即注册