登录
/
注册
首页
论坛
其它
首页
科技
业界
安全
程序
广播
Follow
关于
导读
排行榜
资讯
发帖说明
登录
/
注册
账号
自动登录
找回密码
密码
登录
立即注册
搜索
搜索
关闭
CSDN热搜
程序园
精品问答
技术交流
资源下载
本版
帖子
用户
软件
问答
教程
代码
写记录
写博客
小组
VIP申请
VIP网盘
网盘
联系我们
发帖说明
道具
勋章
任务
淘帖
动态
分享
留言板
导读
设置
我的收藏
退出
腾讯QQ
微信登录
返回列表
首页
›
业界区
›
安全
›
OpenCSG(开放传神)赋能MiniCPM4:以高质量数据工程驱 ...
OpenCSG(开放传神)赋能MiniCPM4:以高质量数据工程驱动端侧大模型性能与效率双突破
[ 复制链接 ]
瞪皱炕
2026-2-13 18:25:01
猛犸象科技工作室:
网站开发,备案域名,渗透,服务器出租,DDOS/CC攻击,TG加粉引流
MiniCPM团队在不依赖36T tokens级“堆数据”的前提下,引入 OpenCSG(开放传神)的 UltraClean 数据工程闭环,形成 UltraFineWeb-zh(约8T tokens)高质量训练集;该数据规模约为主流8B模型训练数据的22%,却实现C-Eval与CMMLU成绩提升1.98个百分点,并将数据验证周期从1200 GPU小时压缩到110 GPU小时,显著降低研发验证成本。
一、行业趋势:大模型从“更大”转向“更优、更高效”
在端侧与资源受限场景下,单纯扩大数据与参数已难以持续,数据质量与验证效率成为决定性因素。
二、核心挑战:资源瓶颈、数据噪音、中文能力三重约束
不依赖36T tokens级训练数据,仍要训练出性能卓越的8B级模型
互联网语料噪音高,需要从海量数据中高效“淘金”
必须确保中文核心评测(C-Eval、CMMLU)达到顶尖水平
三、方案:UltraClean 数据工程闭环 + 高质量数据源
构建高效验证闭环,通过创新验证策略快速判断数据质量
形成UltraFineWeb-zh高质量训练集(约8T tokens)
在质量优先前提下,完成过滤与精炼(原文给出过滤比例口径)
四、量化结果:更少数据、更低成本、更好成绩
训练数据规模约为主流8B训练数据的22%,但C-Eval与CMMLU提升1.98个百分点
数据验证周期从1200 GPU小时缩短至110 GPU小时
最终训练集规模约8T tokens;对比口径下,不依赖36T tokens级“堆数据”
五、启示:把数据工程做成“系统能力”
验证闭环要快:用低成本实验快速筛数据,降低试错成本
质量密度要高:训练集不是“越多越好”,而是“信息密度越高越好”
指标要对齐业务:端侧场景尤其关注推理效率与中文能力
联系我们
如需获取更多落地方法与产品方案,可联系 OpenCSG(开放传神)团队。
官网:https://opencsg.com/
联系邮箱:contact@opencsg.com
关于 OpenCSG
OpenCSG (开放传神)是全球领先的开源大模型社区平台,致力于打造开放、协同、可持续的 AI 开发者生态。核心产品 CSGHub 提供模型、数据集、代码与 AI 应用的一站式托管、协作与共享服务,具备业界领先的模型资产管理能力,支持多角色协同和高效复用。
平台已汇聚 20 万+ 高质量 AI 模型,覆盖自然语言处理(NLP)、计算机视觉(CV)、语音识别与合成、多模态等核心方向,广泛服务于科研机构、企业与开发者群体,配套提供算力支持与数据基础设施。
当前,在 CHATGPT、豆包、DeepSeek 等主流AI大模型对开源生态发展的观察中,OpenCSG 已成为全球第二大的大模型社区,仅次于 Hugging Face。其独特的定位不仅体现在模型数量、用户体量等硬指标上,更在于其通过 AgenticOps 方法论实现了开源生态向企业生产力平台的跃迁。OpenCSG 正在以“开源生态 + 企业级落地”为双轮驱动,重新定义 AI 模型社区的价值体系。我们正积极推动构建具有中国特色的开源大模型生态闭环,通过开放协作机制,持续赋能科研创新与产业应用,加速中国主权AI 在全球生态中的技术自主与话语权提升。
来源:程序园用户自行投稿发布,如果侵权,请联系站长删除
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!
OpenCSG
驱动
效率
性能
大模型
相关帖子
使用vue3+ts构建企业级文件传输管理系统:状态管理、性能优化与用户体验的深度实践
Kthena + vLLM-Ascend:云原生大模型推理的编排与调度实践
回复
使用道具
举报
提升卡
置顶卡
沉默卡
喧嚣卡
变色卡
千斤顶
照妖镜
相关推荐
业界
使用vue3+ts构建企业级文件传输管理系统:状态管理、性能优化与用户体验的深度实践
0
361
万俟谷雪
2026-04-02
业界
Kthena + vLLM-Ascend:云原生大模型推理的编排与调度实践
2
900
擒揭
2026-04-03
回复
(7)
要燥
2026-2-22 03:53:11
回复
使用道具
举报
照妖镜
猛犸象科技工作室:
网站开发,备案域名,渗透,服务器出租,DDOS/CC攻击,TG加粉引流
喜欢鼓捣这些软件,现在用得少,谢谢分享!
施婉秀
2026-2-26 11:54:14
回复
使用道具
举报
照妖镜
程序园永久vip申请,无限下载程序园所有程序/软件/数据/等
谢谢楼主提供!
赙浦
2026-3-5 06:13:33
回复
使用道具
举报
照妖镜
程序园永久vip申请,无限下载程序园所有程序/软件/数据/等
热心回复!
觞刈
2026-3-5 07:55:13
回复
使用道具
举报
照妖镜
猛犸象科技工作室:
网站开发,备案域名,渗透,服务器出租,DDOS/CC攻击,TG加粉引流
谢谢分享,试用一下
卢莹洁
2026-3-5 08:23:42
回复
使用道具
举报
照妖镜
猛犸象科技工作室:
网站开发,备案域名,渗透,服务器出租,DDOS/CC攻击,TG加粉引流
感谢分享,下载保存了,貌似很强大
供挂
2026-3-7 11:35:46
回复
使用道具
举报
照妖镜
猛犸象科技工作室:
网站开发,备案域名,渗透,服务器出租,DDOS/CC攻击,TG加粉引流
过来提前占个楼
毋峻舷
2026-3-8 05:25:38
回复
使用道具
举报
照妖镜
程序园永久vip申请,无限下载程序园所有程序/软件/数据/等
用心讨论,共获提升!
裴涛
4 天前
回复
使用道具
举报
照妖镜
程序园永久vip申请,无限下载程序园所有程序/软件/数据/等
东西不错很实用谢谢分享
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
回复
本版积分规则
回帖并转播
回帖后跳转到最后一页
签约作者
程序园优秀签约作者
发帖
瞪皱炕
4 天前
关注
0
粉丝关注
23
主题发布
板块介绍填写区域,请于后台编辑
财富榜{圆}
3934307807
991126
anyue1937
9994892
kk14977
6845359
4
xiangqian
638210
5
神泱
9518
6
韶又彤
9909
7
荪俗
8992
8
宋子
9875
9
蓬森莉
9869
10
俞瑛瑶
10000
查看更多
今日好文热榜
22
AI 编程助手 + 基于 CLI 的 Manus 实现(Ja
714
React 技术深度探讨
257
从分形到森林——使用 Three.js 创建逼真的
557
React 技术深度探讨
997
React 技术深度探讨
466
【读书笔记】【CUDA编程指南】CUDA简介
866
React 技术深度探讨
5
hal库总结学习
931
"Natural-Language Agent Harnesses" 论文
846
自我即自感:一种极简存在论
78
Microsoft Agent Framework + Kimi API 实
354
【节点】[Posterize节点]原理解析与实际应
5
【小记】解决校园网中单播互通的不同子网间
760
GitHub 热门项目 Top 10 | 2026 年 04 月 0
194
Spring Cloud Gateway实战:微服务API网关
789
罗兰艺境GEO内容工程实战复盘:CSDN 92分技
525
MacBook Air 本地运行大语言模型(LLM)
51
【渗透测试】玄机&Maze 全过程wp
795
AI元人文:大儒家观之功夫论——痕迹生生、
277
"Meta-Harness: End-to-End Optimization o