登录
/
注册
首页
论坛
其它
首页
科技
业界
安全
程序
广播
Follow
关于
导读
排行榜
资讯
发帖说明
登录
/
注册
账号
自动登录
找回密码
密码
登录
立即注册
搜索
搜索
关闭
CSDN热搜
程序园
精品问答
技术交流
资源下载
本版
帖子
用户
软件
问答
教程
代码
写记录
写博客
小组
VIP申请
VIP网盘
网盘
联系我们
发帖说明
道具
勋章
任务
淘帖
动态
分享
留言板
导读
设置
我的收藏
退出
腾讯QQ
微信登录
1
2
/ 2 页
下一页
返回列表
首页
›
业界区
›
业界
›
收藏!LLM-RL训练框架:3大流派+6大框架,一文搞定 ...
收藏!LLM-RL训练框架:3大流派+6大框架,一文搞定
[ 复制链接 ]
卒挪
2026-1-20 12:00:02
程序园永久vip申请,无限下载程序园所有程序/软件/数据/等
原文: https://mp.weixin.qq.com/s/9f4mqYVGKNS-LhmHLl6CXw
LLM-RL往期文章推荐
小白也能看懂的RL-PPO
收藏!强化学习从入门到封神:5 本经典教材 + 8 大实战项目 + 7个免费视频,一站式搞定
小白也能看懂的RLHF:基础篇
小白也能看懂的RLHF-PPO:原理篇
小白也能看懂的LLM-RL算法:PPO/DPO/GRPO/GSPO
2022年OpenAI发布Chatgpt之后,LLM成为了街头巷尾热议的话题。其中,LLM的训练和微调技术成为了这波技术浪潮的大功臣。在前面几篇中,我们详细介绍了LLM-RL训练、微调的核心算法原理。本篇将聚焦梳理LLM-RL开源 LLM-RL 训练框架。
在LLM-RL训练和微调技术演进中,模型对齐技术从辅助微调手段成为决定模型推理、安全与指令遵循能力的核心;SFT(Supervised Fine-Tuning)奠定模型基础行为,RLHF及其衍生的 RLVR(Reinforcement Learning with Verifiable Rewards)则成为突破模型能力上限的关键。
早期RLHF以OpenAI InstructGPT的PPO为核心,但该算法训练成本高,催生了2023年DPO等离线算法成为主流。2025年DeepSeek-R1等模型崛起后,在线采样和过程奖励模型相关的慢思考能力成竞争重点,倒逼社区革新LLM-RL训练框架。本报告将深度解构分析TRL、OpenRLHF、verl、LLaMA Factory四大主流开源LLM-RL训练框架,及 DeepSpeed等重要生态组件,围绕架构设计、关键特性、分布式计算策略及适用场景等维度展开,为相关从业者提供选型参考。
1 LLM-RL训练的挑战与架构演变
为了更好的理解各大框架的设计理论,我们先简单剖析下LLM-RL训练中的挑战点。从往期的文章中可以看出,RLHF引入了复杂的环境交互过程:模型必须先根据当前的策略生成样本,并由奖励模型评分,最后通过梯度更新策略。这便带来以下两大挑战:
生成瓶颈与
显存
碎片化
:在经典的RLHF流程中,经验数据生成耗时占训练周期 80%-90%的时间,而传统训练框架将生成与训练阶段耦合在同一计算流,会导致模式频繁切换,既造成显存碎片化,也生成阶段的推理效率极低即。即,在训练阶段时,需要维护庞大的梯度图和优化器状态,切换到生成模式时,又需要利用KV Cache来加速推理。
四个模型协同的
分布式
难题
:标准的PPO算法需要同时在显存中维护四个模型(Actor模型、Critic模型、Reward模型、Reference模型)。以训练一个70B的模型为例,仅仅加载这四个模型的权重就需要超过500GB的显存(FP16精度),这还没加上维护优化器状态和梯度值的存储显存,如何高效地在多GPU节点间切分这四个模型,成为了区分各框架架构优劣的关键因素。
1.1 架构演进的三大流派
针对上述挑战,开源社区演化出了三种主要的架构流派:
单体集成流派:
以
TRL(Transformer
Reinforcement Learning****)
为代表,依托Hugging Face生态,强调算法的模块化和易用性,适合中小规模模型的科研探索。
Ray
分布式
解耦****流派:
以
OpenRLHF
为代表,利用Ray框架将Actor、Critic等模型物理分离到不同的GPU组,并引入vLLM作为独立的推理引擎,大幅提升生成效率,适合大规模模型的生产级训练。
混合流引擎流派:
以
verl
(Volcano Engine
RL****)
为代表,通过极其灵活的3D-HybridEngine实现计算与数据的解耦,支持Megatron-LM等超大规模并行策略,面向万亿参数模型的极致优化。
2 TRL
github: https://github.com/huggingface/trl | 17k⭐
官方文档: https://huggingface.co/docs/trl/index
TRL不仅是一个代码库,更是Hugging Face生态在后训练阶段的官方实施标准,是生态系统的基石与标准化。它通过与transformers、accelerate和peft库的无缝集成,极大地降低了开发者进入RLHF领域的门槛。
2.1 核心架构:基于Trainer的模块化设计
TRL的设计哲学是将强化学习过程封装为标准的Trainer类,继承自Transformers库的训练逻辑。这种设计使得熟悉SFT的用户可以几乎零成本地迁移到RLHF。
PPOTrainer 与 GRPOTrainer
:TRL覆盖了经典PPO的PPOTrainer,v0.17.0+版本新增GRPOTrainer,GRPO通过生成输出组的相对归一化计算优势函数,去除Critic 模型、大幅降显存,是DeepSeek-R1等推理模型复现的首选算法。
模型封装
: TRL的AutoModelForCausalLMWithValueHead可以为任意因果语言模型动态加价值头,支持PPO价值估计,能直接对Llama 3、Mistral等模型做RL微调,适配灵活。
2.2 关键特性
算法全覆盖
:TRL覆盖SFT、DPO、IPO、KTO、GRPO、BCO等主流后训练算法,是学术界新算法基准对比的首选框架。
PEFT与量化集成
:深度绑定peft和bitsandbytes,原生支持QLoRA,单张RTX 4090即可4-bit量化加载大模型并完成PPO、DPO微调,配置便捷。
OpenEnv与Agent支持
:集成OpenEnv实现模型与外部环境交互,顺应Agentic AI发展,从对齐工具演进为通用决策智能训练框架,支持工具调用与多步推理的强化学习。
2.3 局限性与适用场景
TRL易用性极佳,但大规模分布式训练效率不足
性能瓶颈
:TRL默认用Hugging Face的generate ()生成样本,该方法未做系统级优化。在单体架构下,Actor与 Critic模型在同进程中通过accelerate进行调度,会带来显存的频繁换入换出和通信开销。
适用场景
:算法研究员、教育工作者以及算力受限(使用单机多卡或单卡)开发者的最佳选择,适合验证新 Reward函数、探索新Loss、小于30B模型上快速实验。
3 OpenRLHF
gitHub: https://github.com/OpenRLHF/OpenRLHF 8.8k⭐
作为基于Ray与vLLM的分布式扩展架构,OpenRLHF是针对大规模生产环境设计的对齐框架,其核心设计出发点在于,RLHF的训练效率瓶颈在于生成阶段,且不同模型(Actor, Critic)对计算资源的需求截然不同。因此,OpenRLHF开启了大融合的的架构重构之路,核心为基于Ray的完全解耦。
3.1 架构革新:Ray+vLLM+DeepSpeed
OpenRLHF基于Ray分布式框架,将PPO的四个模型物理拆分至不同GPU资源组,并引入专用推理引擎,核心优化体现在三方面:
调度解耦
:支持用户灵活定义资源拓扑,可按任务将不同模型部署在独立GPU组,还能按需拆分/合并 Reward、Reference模型,彻底消除单体架构的短板效应。例如,训练一个70B模型训练时,可将Actor模型部署在8张A100上通过vLLM高速生成,Critic模型部署在另外4张A100进行价值评估,Reward和Reference模型可按需拆分或合并。
推理加速
:首个集成vLLM到RLHF训练循环的框架,借助PagedAttention和张量并行,让生成吞吐量数倍提升。同时,框架通过NCCL/CUDA IPC(进程间通信)实现Ray Actor间权重高效同步,保证训练与推理引擎参数一致;
算法稳定性优化
:集成优势归一化、梯度裁剪、分布式Adam Offload等验证有效的优化策略,解决 PPO 训练不稳定问题,保障千卡规模下的训练收敛性。
3.2 关键特性与Agent范式
Token-Level流水线:
OpenRLHF采用「
Token-in-Token-out
」的设计范式。将单轮对话、多轮Agent交互均视为Token流处理,使其能够无缝支持复杂的Agent训练场景,确保训练时的文本分布与推理时完全一致,避免分布偏移问题。
算法支持:
除了PPO,OpenRLHF还支持REINFORCE++、DAPO、RLOO等前沿算法,且支持条件PPO和拒绝采样,微调高推理能力模型时优势显著。
3.3 性能优势与数据实证
OpenRLHF在公开基准测试中性能优势显著,在GSM8K数据集GRPO的训练任务中,单Epoch仅需1657秒,相比于同等配置TRL的5189秒速度提升超3倍,这种效率提升源于vLLM高吞吐生成以及Ray异构模型调度的零开销切换。
对于70B+参数的超大模型,OpenRLHF是目前开源界少数能提供开箱即用全量微调方案的框架。
4 verl
gitHub: https://github.com/volcengine/verl 18.5k⭐
官方文档: https://verl.readthedocs.io/en/latest/
verl 是字节跳动(火山引擎)开源的 RLHF 框架,为 HybridFlow(https://arxiv.org/pdf/2409.19256v2)论文的工程实现,verl主要面向万亿参数模型与超大规模集群的工业级需求。
4.1 HybridFlow与3D-HybridEngine
verl 的核心创新是编程模型与底层引擎深度协同,解决超大模型异构计算流的数据依赖问题。
3D-HybridEngine:
不同于OpenRLHF依赖Ray进行物理显存隔离,verl引入了3D-HybridEngine,该技术可在同组GPU上高效切换训练与生成状态,基于Megatron-LM并行切分策略实现Actor模型权重的显存原地复用或高效重分片,消除海量权重的网络传输开销、避免显存冗余占用。
可编程数据流
:verl提供了混合控制器功能,允许用户通过简单的Python代码定义复杂的RL数据流,解耦计算与数据依赖,灵活构建 PPO、GRPO/RLOO 等各类算法。
4.2 Megatron-LM 生态与万亿模型支持
verl的一个显著特征是深度支持
Megatron-LM
,对于100B+参数模型或MoE模型(如DeepSeek-V3 671B),单纯的DeepSpeed ZeRO策略往往由于通信瓶颈而难以扩展。verl集成了Megatron的张量并行(TP)、流水线并行(PP)和专家并行(EP),使其能够训练其它框架无法支持的超大模型。 此外,verl还具备以下特性:
后端多样性:
除了Megatron,verl也支持PyTorch FSDP和FSDP2,为Hugging Face模型用户提供了灵活性。
推理集成:
verl同样集成了vLLM和SGLang作为推理后端。其中,SGLang在结构化输出、长Context推理上性能优于vLLM,对推理类模型训练至关重要。
4.3 性能优势
verl兼具基础设施属性与算法创新价值,官方仓库提供 DeepSeek-R1-Zero/DeepSeek-R1 的完整复现方案,含 GRPO、GPG 算法实现。同时,开源了SOTA算法DAPO的代码,该算法在AIME 2024基准测试中表现优异。verl成为当前复现和研究推理大模型的首选框架。
5 LLaMA Factory
gitHub: https://github.com/hiyouga/LlamaFactory 66.1k⭐
官方文档: https://docs.llamafactory.com.cn/docs/documents/introduct
LLaMA-Factory Online 是一个面向科研机构、企业研发团队或个人开发者快速构建和部署AI应用的一站式大模型训练与微调平台,致力于提供简单易用、高效灵活的全流程解决方案。平台以“低门槛、高效率、强扩展”为核心,通过集成化工具链、可视化操作界面与自动化工作流,显著降低大模型定制与优化的技术成本,助力用户快速实现模型从开发调试到生产部署的全周期闭环,功能示意如下所示。
5.1 统一接口与可视化训练
LLaMA Factory最核心的贡献是提供了一个名为LLaMA Board的Web UI界面。用户无需编写一行代码,即可通过网页配置训练参数、选择数据集、监控训练进度并评估模型。
多模式支持:
框架底层封装了TRL、DeepSpeed和自定义的训练流程,用户可以通过下拉菜单在预训练(Pre-training)、指令监督微调(SFT)、DPO、PPO、KTO和ORPO之间无缝切换。
低门槛适配:
对于不熟悉分布式系统的中小企业或个人开发者,LLaMA Factory屏蔽了accelerate config或deepspeed配置文件的复杂性,通过直观的表单驱动整个流程。
5.2 Unsloth集成与效率优化
LLaMA Factory非常敏锐地集成了社区中最高效的工具。
Unsloth加速:
它是首批集成
Unsloth
的框架之一。Unsloth通过手写Triton内核重写了Llama和Mistral模型的反向传播逻辑,使得LoRA微调速度提升了2倍,显存占用减少了50%以上。这使得在单张显卡上微调Llama3-70B成为可能。
广泛的模型支持:
框架的维护者更新速度极快,几乎在Qwen、DeepSeek、Yi、Gemma等新模型发布的当天就能提供支持。
5.3 局限性
尽管在SFT和DPO领域表现出色,但在PPO等在线RL训练方面,LLaMA Factory的能力相对有限。它主要依赖单机多卡或简单的多机配置,缺乏OpenRLHF或verl那种复杂的Actor-Critic拆分调度能力,更适合基于LoRA的轻量级RLHF,而非从零开始训练基座模型的RL对齐。
6 垂直领域与高性能计算框架
除了上述四大通用框架,还存在针对特定需求优化的LLM-RL解决方案。
6.1 RAGEN
gitHub: https://github.com/ragen-ai/ragen 2.5k⭐
官网地址:https://ragen-doc.readthedocs.io/en/latest/
RAGEN是基于verl构建的垂直框架,专门解决Agent在多步环境中的强化学习问题。
StarPO 算法:
针对多轮对话中常见的
回声陷阱
(即模型重复之前的错误)和梯度爆炸问题,RAGEN引入了StarPO算法,优化的是整个交互轨迹而非单个Token,使模型能够学会规划和工具使用。
应用场景:
训练模型玩Sokoban游戏、解决复杂的逻辑谜题或执行多步API调用。
6.2 DeepSpeed
gitHub: https://github.com/deepspeedai/DeepSpeed 41.3k⭐
https://github.com/microsoft/DeepSpeedExamples 6.8k⭐
微软开源的LLM-RL优化框架,核心价值是「低成本高效训练/推理超大模型」,解决大模型显存不足、速度慢、成本高的核心痛点,是大模型落地主流框架。
核心特性
极致显存优化
:以ZeRO系列优化器为核心,结合3D并行,显存占用降低5-10倍,支持千亿/万亿级参数量模型训练,推理侧ZeRO-Inference同步优化显存。
高速高吞吐
:算子级定制优化、混合精度训练、数据预处理加速,算力利用率达70%-90%,训练/推理速度远超原生PyTorch。
全链路支持
:覆盖预训练、SFT、RLHF、推理部署全流程,训练模型可直接部署,无技术断点。适配 Hugging Face Transformers、Megatron-LM 等主流生态,支持NVIDIA/AMD GPU、CPU等硬件。
生产级特性
:内置MoE模型支持、智能checkpoint管理、断点续训、量化推理等工业级功能。
7 框架横向评测与选型指南
为了帮助读者在众多框架中做出精准选择,我们将从性能、易用性和硬件需求三个维度进行横向对比。
7.1 吞吐量与性能对比
根据公开的基准测试和社区反馈,各框架在吞吐量上的表现呈现明显的分层:
维度
OpenRLHF
verl
TRL
LLaMA Factory
PPO/GRPO吞吐量
极高 (vLLM加速)极高 (vLLM/SGLang + HybridEngine)中等 (原生Generate)中等 (依赖后端)
70B+模型支持
原生支持 (Ray 分布式)原生支持 (Megatron/FSDP)困难 (需大量显存/量化)仅限 LoRA/QLoRA
通信开销
中 (Ray跨节点通信)低 (3D-HybridEngine原地复用)高 (单体调度)N/A
verl vs OpenRLHF:
在使用FSDP后端时,verl与OpenRLHF性能差异不大,因为瓶颈都在vLLM推理上。但在超大规模(>100B)且需要Megatron切分时,verl的架构更具优势,因为它避免了复杂的跨进程权重同步。
7.2 选型建议
算法研究员
:
首选TRL
:代码结构最清晰,文档最丰富,修改Loss函数或尝试新算法(如DPO改版)最容易。
备选 LLaMA Factory
:只是想快速验证SFT+DPO的效果,不需要写代码。
中小企业:
OpenRLHF
:性价比最高。能够利用Ray将散落在不同服务器上的消费级显卡(如4090)组合起来训练7B-34B模型,且性能优异。
LLaMA Factory
:如果团队缺乏深度开发能力,仅需对现有模型进行微调适配。
基础模型团队架构师
:
verl
:唯一能够原生支持万亿参数MoE模型全量RLHF的框架,与Megatron的结合是训练DeepSeek级别模型的必选项。
Agent应用开发者:
RAGEN或OpenRLHF: 需要对多轮对话轨迹进行整体优化,这两者提供了最好的Agent抽象。
随着RLVR的兴起,LLM-RL训练框架将不再仅仅是语言模型的优化器,演变为包含编译器、解释器和模拟器的复杂环境交互系统。框架竞争的焦点将从单纯的吞吐量转向环境交互效率、复杂推理轨迹的优化能力。对于开发者而言,掌握这些框架的原理与实践,将是应对这一AI浪潮的核心竞争力。
来源:程序园用户自行投稿发布,如果侵权,请联系站长删除
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!
框架
收藏
LLM
RL
训练
相关帖子
RDK-OE-LLM工具链量化SigLip全流程
RDK-OE-LLM工具链量化SigLip全流程
RDK-OE-LLM工具链量化SigLip全流程
回复
使用道具
举报
提升卡
置顶卡
沉默卡
喧嚣卡
变色卡
千斤顶
照妖镜
相关推荐
业界
RDK-OE-LLM工具链量化SigLip全流程
1
284
皇甫佳文
2026-04-05
业界
RDK-OE-LLM工具链量化SigLip全流程
1
800
旱由
2026-04-05
业界
RDK-OE-LLM工具链量化SigLip全流程
0
986
亢安芙
2026-04-05
回复
(22)
吕颐然
2026-1-20 19:08:35
回复
使用道具
举报
照妖镜
程序园永久vip申请,无限下载程序园所有程序/软件/数据/等
很好很强大 我过来先占个楼 待编辑
上官银柳
2026-1-20 19:25:36
回复
使用道具
举报
照妖镜
程序园永久vip申请,无限下载程序园所有程序/软件/数据/等
热心回复!
梢疠
2026-1-22 21:31:39
回复
使用道具
举报
照妖镜
猛犸象科技工作室:
网站开发,备案域名,渗透,服务器出租,DDOS/CC攻击,TG加粉引流
很好很强大 我过来先占个楼 待编辑
赙浦
2026-1-24 07:30:42
回复
使用道具
举报
照妖镜
猛犸象科技工作室:
网站开发,备案域名,渗透,服务器出租,DDOS/CC攻击,TG加粉引流
东西不错很实用谢谢分享
缑莺韵
2026-1-24 09:28:53
回复
使用道具
举报
照妖镜
猛犸象科技工作室:
网站开发,备案域名,渗透,服务器出租,DDOS/CC攻击,TG加粉引流
感谢分享,下载保存了,貌似很强大
颓哀
2026-1-28 09:11:38
回复
使用道具
举报
照妖镜
程序园永久vip申请,无限下载程序园所有程序/软件/数据/等
感谢分享,下载保存了,貌似很强大
龙梨丝
2026-1-29 05:36:51
回复
使用道具
举报
照妖镜
程序园永久vip申请,无限下载程序园所有程序/软件/数据/等
感谢,下载保存了
琦谓
2026-2-4 08:44:43
回复
使用道具
举报
照妖镜
程序园永久vip申请,无限下载程序园所有程序/软件/数据/等
过来提前占个楼
左丘雅秀
2026-2-8 08:03:37
回复
使用道具
举报
照妖镜
程序园永久vip申请,无限下载程序园所有程序/软件/数据/等
yyds。多谢分享
山芷兰
2026-2-8 08:24:04
回复
使用道具
举报
照妖镜
猛犸象科技工作室:
网站开发,备案域名,渗透,服务器出租,DDOS/CC攻击,TG加粉引流
前排留名,哈哈哈
卓卞恻
2026-2-10 09:27:00
回复
使用道具
举报
照妖镜
猛犸象科技工作室:
网站开发,备案域名,渗透,服务器出租,DDOS/CC攻击,TG加粉引流
很好很强大 我过来先占个楼 待编辑
尹心菱
2026-2-11 06:33:11
回复
使用道具
举报
照妖镜
猛犸象科技工作室:
网站开发,备案域名,渗透,服务器出租,DDOS/CC攻击,TG加粉引流
前排留名,哈哈哈
靳夏萱
2026-2-13 08:14:03
回复
使用道具
举报
照妖镜
猛犸象科技工作室:
网站开发,备案域名,渗透,服务器出租,DDOS/CC攻击,TG加粉引流
谢谢分享,辛苦了
松菊
2026-2-22 10:07:55
回复
使用道具
举报
照妖镜
程序园永久vip申请,无限下载程序园所有程序/软件/数据/等
懂技术并乐意极积无私分享的人越来越少。珍惜
坡琨
2026-2-23 11:12:47
回复
使用道具
举报
照妖镜
猛犸象科技工作室:
网站开发,备案域名,渗透,服务器出租,DDOS/CC攻击,TG加粉引流
谢谢分享,试用一下
祝娜娜
2026-2-26 00:36:34
回复
使用道具
举报
照妖镜
程序园永久vip申请,无限下载程序园所有程序/软件/数据/等
谢谢楼主提供!
聱嘹
2026-2-26 02:57:44
回复
使用道具
举报
照妖镜
猛犸象科技工作室:
网站开发,备案域名,渗透,服务器出租,DDOS/CC攻击,TG加粉引流
懂技术并乐意极积无私分享的人越来越少。珍惜
匣卒
2026-2-27 00:11:54
回复
使用道具
举报
照妖镜
程序园永久vip申请,无限下载程序园所有程序/软件/数据/等
分享、互助 让互联网精神温暖你我
高小雨
2026-3-8 05:28:04
回复
使用道具
举报
照妖镜
程序园永久vip申请,无限下载程序园所有程序/软件/数据/等
谢谢楼主提供!
下一页 »
1
2
/ 2 页
下一页
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
回复
本版积分规则
回帖并转播
回帖后跳转到最后一页
签约作者
程序园优秀签约作者
发帖
卒挪
2026-3-8 05:28:04
关注
0
粉丝关注
24
主题发布
板块介绍填写区域,请于后台编辑
财富榜{圆}
3934307807
991125
anyue1937
9994892
kk14977
6845359
4
xiangqian
638210
5
神泱
9520
6
韶又彤
9910
7
荪俗
9003
8
宋子
9873
9
蓬森莉
9870
10
俞瑛瑶
10000
查看更多
今日好文热榜
95
开发实战:asp.net core + ef core 实现动
128
Apache Kafka实战:Spring Boot消息队列完
704
vue3Crush以及对比vue2
79
开发实战:asp.net core + ef core 实现动
978
开发实战:asp.net core + ef core 实现动
150
开发实战:asp.net core + ef core 实现动
712
开发实战:asp.net core + ef core 实现动
904
开发实战:asp.net core + ef core 实现动
114
开发实战:asp.net core + ef core 实现动
228
开发实战:asp.net core + ef core 实现动
34
开发实战:asp.net core + ef core 实现动
948
开发实战:asp.net core + ef core 实现动
395
开发实战:asp.net core + ef core 实现动
243
开发实战:asp.net core + ef core 实现动
12
Teamspeak服务器搭建、绑定域名、迁移
265
开发实战:asp.net core + ef core 实现动
317
DWDP: 在NVL72上的高性能分布式权重数据并
668
开发实战:asp.net core + ef core 实现动
114
自感痕迹论视野下的“功夫”与自我——重读
601
开发实战:asp.net core + ef core 实现动