快速了解(TLDR)
现在只需一行代码,就能通过 load_dataset('dataset', streaming=True) 以流式方式加载数据集,无需下载!
无需复杂配置、不占磁盘空间、不再担心 “磁盘已满” 或 429 请求过多错误,立即开始训练 TB 级数据集!
性能非常强劲:在 64×H100、256 个并发 worker 环境下,流式加载速度甚至超过本地 SSD!
我们优化后的流式系统:请求数减少 100 倍 → 数据解析速度提升 10 倍 → 样本处理速度翻倍 → 即使在 256 个并发 worker 下也 0 崩溃。
在机器学习中,特别是在处理 TB 级别的数据时,数据加载一直是个大难题。我们自己在训练 SmolLM3 时也深有体会,有段时间每次训练前都得等上 3 小时下载数据。
虽然 datasets 库早就支持流式加载,但在大规模训练中依然面临瓶颈。今天,这一切都变了
来源:程序园用户自行投稿发布,如果侵权,请联系站长删除
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作! |