首页 › 业界区 › 业界 ›流式数据集：效率提升 100 倍！

流式数据集：效率提升 100 倍！

仰翡邸 2 小时前

猛犸象科技工作室:网站开发，备案域名，渗透，服务器出租，DDOS/CC攻击，TG加粉引流

快速了解（TLDR）

现在只需一行代码，就能通过 load_dataset('dataset', streaming=True) 以流式方式加载数据集，无需下载！
无需复杂配置、不占磁盘空间、不再担心 “磁盘已满” 或 429 请求过多错误，立即开始训练 TB 级数据集！
性能非常强劲：在 64×H100、256 个并发 worker 环境下，流式加载速度甚至超过本地 SSD！
我们优化后的流式系统：请求数减少 100 倍 → 数据解析速度提升 10 倍 → 样本处理速度翻倍 → 即使在 256 个并发 worker 下也 0 崩溃。

在机器学习中，特别是在处理 TB 级别的数据时，数据加载一直是个大难题。我们自己在训练 SmolLM3 时也深有体会，有段时间每次训练前都得等上 3 小时下载数据。

虽然 datasets 库早就支持流式加载，但在大规模训练中依然面临瓶颈。今天，这一切都变了
来源：程序园用户自行投稿发布，如果侵权，请联系站长删除
免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！