找回密码
 立即注册
首页 业界区 科技 攻克大模型训练网络瓶颈,天翼云论文获ACM ICS顶会收录 ...

攻克大模型训练网络瓶颈,天翼云论文获ACM ICS顶会收录!

秦晓曼 昨天 18:50
近日,由天翼云公有云事业部联合基础架构事业部所撰写的论文《CTCCL: Cost-Efficient Joint Device-Network Load Balancing for LLM Training in RoCE-based Intelligent Computing Network》被第39届ACM International Conference on Supercomputing 2025 (简称ICS)收录。这一成果不仅标志着天翼云在智算网络领域的技术突破获国际学术权威认可,更为天翼云智算集群、大模型训练平台等核心产品注入硬核技术支撑,推动AI算力效率与成本控制实现双重升级。
1.png
 

作为高性能计算领域的顶级盛会,ICS由美国计算机学会(ACM)主办,是中国计算机学会(CCF)推荐的国际重要会议,吸引了全球相关领域众多顶尖学者与产业专家参与。其论文接收率仅约23.32%,所有投稿均需经过严格的同行双盲评审,收录成果代表着当前领域的前沿创新方向。此次天翼云自研集合通信库相关研究的成功入选,是对天翼云技术创新能力的国际认可,彰显了中国云服务商在智算核心技术领域的全球竞争力。
CTCCL+DNLB端网协同方案,破解RoCE网络大模型训练痛点

随着大模型训练进入千亿参数时代,RoCE网络作为智算集群的关键基础设施,正面临“高负载下链路拥堵、大规模部署成本高企”的行业共性难题:现有负载均衡方案依赖自研网卡、交换机等定制硬件,推高中小集群部署门槛;适配性不足,在复杂组网或多任务场景下易出现故障断联,严重影响训练效率。
针对这些痛点,天翼云在论文中创新提出“Joint Device-Network Load Balancing (DNLB)端网协同负载均衡方案”,并通过自研集合通信库CTCCL实现端到端落地,构建起“高性能、低成本、强兼容”的智算通信支撑体系。
2.png
 

基于CTCCL集合通信库的端网协同负载均衡方案

01 端网协同,双维度破解流量拥堵

端侧精准控流:CTCCL创新推出UDP源端口分段算法,基于不同节点RDMA网卡IP地址,为每个队列对(QP)分配唯一连续的UDP源端口,从源头降低哈希冲突,实现流量的“有序分流”。同时,CTCCL内置故障感知机制,可自动将故障链路流量重分配至正常QP,无需人工干预,保障训练不中断。
网侧简单配置:仅需在Leaf交换机配置简单的ACL+PBR规则,即可将不同端口段流量均匀映射至不同上行链路,以“无额外硬件投入”的低成本方式实现负载均衡,实现流量的“精准路由”。
02 强兼容性适配多元场景
该方案无需依赖特定硬件,支持单轨/多轨GPU集群,对并发任务数量无限制,可灵活适配从中小集群到大规模智算中心的多样场景,大幅降低技术落地门槛。
03 实测验证:效率与稳定性双重突破
在真实智算集群测试中,基于CTCCL的DNLB方案性能优势显著。相比传统NCCL和ECMP方案,AllReduce峰值带宽从16.1GB/s提升至22.6GB/s,集合通信效率提升40%,大模型训练效率提升7%,端口负载方差从92.22降至0.06,彻底解决了链路拥堵问题。即便遭遇网络故障,流量也可快速重分配,负载均衡度仍保持在95%以上,确保训练全程无卡顿。
凭借硬核技术突破,天翼云在提升AI算力效率的同时显著降低TCO,实现从“解决痛点”到“加速创新”的跨越。未来,天翼云将持续加强关键核心技术自主攻关,优化智能计算的效率与成本,构建更稳定、高效、普惠的智算基础设施,赋能千行百业数字化转型,为数字经济高质量发展注入澎湃动能。

来源:程序园用户自行投稿发布,如果侵权,请联系站长删除
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!

相关推荐

您需要登录后才可以回帖 登录 | 立即注册