登录
/
注册
首页
论坛
其它
首页
科技
业界
安全
程序
广播
Follow
关于
导读
排行榜
资讯
发帖说明
登录
/
注册
账号
自动登录
找回密码
密码
登录
立即注册
搜索
搜索
关闭
CSDN热搜
程序园
精品问答
技术交流
资源下载
本版
帖子
用户
软件
问答
教程
代码
写记录
写博客
小组
VIP申请
VIP网盘
网盘
联系我们
发帖说明
道具
勋章
任务
淘帖
动态
分享
留言板
导读
设置
我的收藏
退出
腾讯QQ
微信登录
返回列表
首页
›
业界区
›
安全
›
OpenCSG(开放传神)赋能MiniCPM4:以高质量数据工程驱 ...
OpenCSG(开放传神)赋能MiniCPM4:以高质量数据工程驱动端侧大模型性能与效率双突破
[ 复制链接 ]
瞪皱炕
7 天前
猛犸象科技工作室:
网站开发,备案域名,渗透,服务器出租,DDOS/CC攻击,TG加粉引流
MiniCPM团队在不依赖36T tokens级“堆数据”的前提下,引入 OpenCSG(开放传神)的 UltraClean 数据工程闭环,形成 UltraFineWeb-zh(约8T tokens)高质量训练集;该数据规模约为主流8B模型训练数据的22%,却实现C-Eval与CMMLU成绩提升1.98个百分点,并将数据验证周期从1200 GPU小时压缩到110 GPU小时,显著降低研发验证成本。
一、行业趋势:大模型从“更大”转向“更优、更高效”
在端侧与资源受限场景下,单纯扩大数据与参数已难以持续,数据质量与验证效率成为决定性因素。
二、核心挑战:资源瓶颈、数据噪音、中文能力三重约束
不依赖36T tokens级训练数据,仍要训练出性能卓越的8B级模型
互联网语料噪音高,需要从海量数据中高效“淘金”
必须确保中文核心评测(C-Eval、CMMLU)达到顶尖水平
三、方案:UltraClean 数据工程闭环 + 高质量数据源
构建高效验证闭环,通过创新验证策略快速判断数据质量
形成UltraFineWeb-zh高质量训练集(约8T tokens)
在质量优先前提下,完成过滤与精炼(原文给出过滤比例口径)
四、量化结果:更少数据、更低成本、更好成绩
训练数据规模约为主流8B训练数据的22%,但C-Eval与CMMLU提升1.98个百分点
数据验证周期从1200 GPU小时缩短至110 GPU小时
最终训练集规模约8T tokens;对比口径下,不依赖36T tokens级“堆数据”
五、启示:把数据工程做成“系统能力”
验证闭环要快:用低成本实验快速筛数据,降低试错成本
质量密度要高:训练集不是“越多越好”,而是“信息密度越高越好”
指标要对齐业务:端侧场景尤其关注推理效率与中文能力
联系我们
如需获取更多落地方法与产品方案,可联系 OpenCSG(开放传神)团队。
官网:https://opencsg.com/
联系邮箱:contact@opencsg.com
关于 OpenCSG
OpenCSG (开放传神)是全球领先的开源大模型社区平台,致力于打造开放、协同、可持续的 AI 开发者生态。核心产品 CSGHub 提供模型、数据集、代码与 AI 应用的一站式托管、协作与共享服务,具备业界领先的模型资产管理能力,支持多角色协同和高效复用。
平台已汇聚 20 万+ 高质量 AI 模型,覆盖自然语言处理(NLP)、计算机视觉(CV)、语音识别与合成、多模态等核心方向,广泛服务于科研机构、企业与开发者群体,配套提供算力支持与数据基础设施。
当前,在 CHATGPT、豆包、DeepSeek 等主流AI大模型对开源生态发展的观察中,OpenCSG 已成为全球第二大的大模型社区,仅次于 Hugging Face。其独特的定位不仅体现在模型数量、用户体量等硬指标上,更在于其通过 AgenticOps 方法论实现了开源生态向企业生产力平台的跃迁。OpenCSG 正在以“开源生态 + 企业级落地”为双轮驱动,重新定义 AI 模型社区的价值体系。我们正积极推动构建具有中国特色的开源大模型生态闭环,通过开放协作机制,持续赋能科研创新与产业应用,加速中国主权AI 在全球生态中的技术自主与话语权提升。
来源:程序园用户自行投稿发布,如果侵权,请联系站长删除
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!
OpenCSG
驱动
效率
性能
大模型
相关帖子
端侧大模型实践 - 生成预测模型&模型轻量化&端侧部署
端侧大模型实践 - 生成预测模型&模型轻量化&端侧部署
端侧大模型实践 - 生成预测模型&模型轻量化&端侧部署
端侧大模型实践 - 生成预测模型&模型轻量化&端侧部署
端侧大模型实践 - 生成预测模型&模型轻量化&端侧部署
端侧大模型实践 - 生成预测模型&模型轻量化&端侧部署
性能提升 4 倍的背后:时序数据库 IoTDB 系统调优方法与五个真实案例
性能提升 4 倍的背后:时序数据库 IoTDB 系统调优方法与五个真实案例
性能提升 4 倍的背后:时序数据库 IoTDB 系统调优方法与五个真实案例
大模型榜单周报(2026/02/15)
回复
使用道具
举报
提升卡
置顶卡
沉默卡
喧嚣卡
变色卡
千斤顶
照妖镜
相关推荐
安全
端侧大模型实践 - 生成预测模型&模型轻量化&端侧部署
2
490
敖可
2026-02-12
安全
端侧大模型实践 - 生成预测模型&模型轻量化&端侧部署
2
168
沦嘻亟
2026-02-12
安全
端侧大模型实践 - 生成预测模型&模型轻量化&端侧部署
0
980
驼娑
2026-02-12
安全
端侧大模型实践 - 生成预测模型&模型轻量化&端侧部署
1
768
捷荀讷
2026-02-12
安全
端侧大模型实践 - 生成预测模型&模型轻量化&端侧部署
2
136
梨恐
2026-02-12
安全
端侧大模型实践 - 生成预测模型&模型轻量化&端侧部署
1
484
剽达崖
2026-02-12
安全
性能提升 4 倍的背后:时序数据库 IoTDB 系统调优方法与五个真实案例
0
16
骂治并
2026-02-13
安全
性能提升 4 倍的背后:时序数据库 IoTDB 系统调优方法与五个真实案例
1
51
窝酴
2026-02-13
安全
性能提升 4 倍的背后:时序数据库 IoTDB 系统调优方法与五个真实案例
2
31
唐茗
2026-02-13
业界
大模型榜单周报(2026/02/15)
0
802
仲水悦
2026-02-16
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
回复
本版积分规则
回帖并转播
回帖后跳转到最后一页
签约作者
程序园优秀签约作者
发帖
瞪皱炕
7 天前
关注
0
粉丝关注
22
主题发布
板块介绍填写区域,请于后台编辑
财富榜{圆}
3934307807
991124
anyue1937
9994892
kk14977
6845359
4
xiangqian
638210
5
宋子
9899
6
韶又彤
9918
7
闰咄阅
9993
8
刎唇
9995
9
蓬森莉
9884
10
遗憩
10006
查看更多
今日好文热榜
76
[LKD/Linux 内核] 关于对 current_thread_i
6
[LKD/Linux 内核] 关于对 current_thread_i
4
[LKD/Linux 内核] 关于对 current_thread_i
536
杂题选做(3)
4
9、PipedInputStream和PipedOutputStream的
751
凸优化数学基础笔记(五):极小值点的判定
856
【节点】[MainLightRealtimeShadow节点]原
11
【渗透测试】HTB靶场之WingData 全过程wp
381
2023年电赛国赛经历
534
从零开始学Flink:实时数仓与维表时态Join
987
Stanford-CS336-Lecture-01 学习理解
662
FastAPI实战:WebSocket长连接保持与心跳机
361
FPGA使用镜像加载技术来切换运行中的比特流
404
赋予 AI Agent “无限续航”:语义保护型上
406
企业健身房器材配置方案:拒绝纸上谈兵,上
4
读人工智能全球格局:未来趋势与中国位势09