登录
/
注册
首页
论坛
其它
首页
科技
业界
安全
程序
广播
Follow
关于
导读
排行榜
资讯
发帖说明
登录
/
注册
账号
自动登录
找回密码
密码
登录
立即注册
搜索
搜索
关闭
CSDN热搜
程序园
精品问答
技术交流
资源下载
本版
帖子
用户
软件
问答
教程
代码
写记录
写博客
小组
VIP申请
VIP网盘
网盘
联系我们
发帖说明
道具
勋章
任务
淘帖
动态
分享
留言板
导读
设置
我的收藏
退出
腾讯QQ
微信登录
返回列表
首页
›
业界区
›
业界
›
从文件到块: 提高 Hugging Face 存储效率
从文件到块: 提高 Hugging Face 存储效率
[ 复制链接 ]
孜尊
2025-6-4 22:15:05
猛犸象科技工作室:
网站开发,备案域名,渗透,服务器出租,DDOS/CC攻击,TG加粉引流
Hugging Face 在 Git LFS 仓库 中存储了超过 30 PB 的模型、数据集和 Spaces。由于 Git 在文件级别进行存储和版本控制,任何文件的修改都需要重新上传整个文件。这在 Hub 上会产生高昂的成本,因为平均每个 Parquet 和 CSV 文件大小在 200-300 MB 之间,Safetensor 文件约 1 GB,而 GGUF 文件甚至可能超过 8 GB。设想一下,仅仅修改 GGUF 文件中的一行元数据,就需要等待数 GB 大小的文件重新上传。除了耗费用户时间和传输成本外,Git LFS 还需要保存文件的两个完整版本,这进一步增加了存储开销。
下图展示了 Hub 上各类仓库 (模型、数据集和 Spaces) 中 LFS 存储容量在 2022 年 3 月至 2024 年 9 月期间的增长趋势:
Hugging Face 的 Xet 团队正在采用一种创新的存储方案: 将文件分块存储。通过只传输发生变化的数据块,我们可以显著提升存储效率和迭代速度,同时确保用户能可靠地访问不断演进的数据集和模型。下面让我们详细了解其工作原理。
基于内容的分块原理
我们采用的分块方法称为基于内容的分块 (Content-Defined Chunking,CDC)。与将文件视为不可分割的整体不同,CDC 根据文件内容本身来确定边界,将文件划分为大小可变的数据块。为了计算这些块的边界,我们使用 滚动哈希算法 来扫描文件的字节序列。
让我们通过一个简单的例子来说明:
transformerstransformerstransformers
复制代码
这里我们用文本来演示,但实际上这个过程适用于任何字节序列。
滚动哈希算法通过在数据上滑动固定大小的窗口来计算哈希值。比如,当窗口长度为 4 时,算法会依次计算 tran 、 rans 、 ansf 等字符序列的哈希值,直到处理完整个文件。
当某个位置的哈希值满足预设条件时,就会在该处设置块的边界。例如,可以设置如下条件:
hash(data) % 2^12 == 0
复制代码
如果序列 mers 的哈希值满足这个条件,那么文件就会被分成三个块:
transformers | transformers | transformers
复制代码
系统会计算这些块的哈希值,建立块哈希值到实际内容的映射,并最终将它们存储在基于内容寻址的存储系统 (Content-Addressed Storage,CAS) 中。由于这三个块完全相同,CAS 只需要存储一个块的实际内容,从而自动实现了数据去重。
来源:程序园用户自行投稿发布,如果侵权,请联系站长删除
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!
文件
提高
Hugging
Face
存储
相关帖子
在HTML文件中CSS文件与JS文件如何引用
打破教育资源获取壁垒!附文件合并及下载攻略
MySQL整体设计与存储引擎深度剖析:从架构哲学到引擎选型(了解)
C语言中的数据存储
Markdown文件导入Milvus向量数据库完整指南
讲讲django的文件对象
Hudi 文件格式分析
使用typora来写md文件时配置文件存放图片的路径
使用ai的方法给epub文件中的汉字加拼音
对标MinIO!全新一代分布式文件系统诞生!
回复
使用道具
举报
提升卡
置顶卡
沉默卡
喧嚣卡
变色卡
千斤顶
照妖镜
相关推荐
安全
在HTML文件中CSS文件与JS文件如何引用
1
1015
麓吆
2025-11-18
安全
打破教育资源获取壁垒!附文件合并及下载攻略
2
422
后沛若
2025-11-20
业界
MySQL整体设计与存储引擎深度剖析:从架构哲学到引擎选型(了解)
1
779
倡遍竽
2025-11-22
业界
C语言中的数据存储
1
686
坟菊
2025-11-23
安全
Markdown文件导入Milvus向量数据库完整指南
1
565
乙荒
2025-11-24
安全
讲讲django的文件对象
1
899
老僻贞
2025-12-01
业界
Hudi 文件格式分析
0
818
万俟谷雪
2025-12-03
业界
使用typora来写md文件时配置文件存放图片的路径
0
734
董绣梓
2025-12-06
业界
使用ai的方法给epub文件中的汉字加拼音
0
244
叶芷雁
2025-12-08
业界
对标MinIO!全新一代分布式文件系统诞生!
1
556
聊账
2025-12-12
回复
(4)
汹萃热
2025-10-29 22:47:46
回复
使用道具
举报
照妖镜
程序园永久vip申请,500美金$,无限下载程序园所有程序/软件/数据/等
懂技术并乐意极积无私分享的人越来越少。珍惜
宗和玉
2025-11-11 00:10:15
回复
使用道具
举报
照妖镜
猛犸象科技工作室:
网站开发,备案域名,渗透,服务器出租,DDOS/CC攻击,TG加粉引流
新版吗?好像是停更了吧。
轩辕娅童
2025-11-26 01:26:29
回复
使用道具
举报
照妖镜
猛犸象科技工作室:
网站开发,备案域名,渗透,服务器出租,DDOS/CC攻击,TG加粉引流
不错,里面软件多更新就更好了
姊囝
前天 16:42
回复
使用道具
举报
照妖镜
猛犸象科技工作室:
网站开发,备案域名,渗透,服务器出租,DDOS/CC攻击,TG加粉引流
懂技术并乐意极积无私分享的人越来越少。珍惜
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
回复
本版积分规则
回帖并转播
回帖后跳转到最后一页
签约作者
程序园优秀签约作者
发帖
孜尊
前天 16:42
关注
0
粉丝关注
20
主题发布
板块介绍填写区域,请于后台编辑
财富榜{圆}
anyue1937
9994893
kk14977
6845356
3934307807
991123
4
xiangqian
638210
5
韶又彤
9998
6
宋子
9983
7
闰咄阅
9993
8
刎唇
9993
9
俞瑛瑶
9998
10
蓬森莉
9951
查看更多
今日好文热榜
828
NCHU-数字电路模拟程序-23207332
229
LaTeX学习笔记:学术文档排版
210
昆明黄金店推荐:如何甄选“价值平权”的黄
932
微信支付集成_JSAPI
879
【AI编程】5分钟用AI复刻有BOSS战的《坦克
622
紧跟材料趋势,深耕专业工艺:上海芮生建设
658
FFmpeg开发笔记(九十四)基于Kotlin的国产
740
昆明旅游打卡必去:逛南亚风情园,别错过廖
878
大厂生存启示录:从“螺丝钉”到“金牌个人
212
AI编程工具策略
263
self introduction
49
白嫖最新ChatGPT和主流AI大模型,国内无限
64
Java关键字解析之volatile:可见性的守护者
701
PHP 8.6 即将支持部分函数应用
562
FFmpeg开发笔记(九十三)国产的Android开
196
FFmpeg开发笔记(九十三)国产的Android开
941
【EF Core】“Code First”方案下以编程方
483
[数据结构/Java] 数据结构之循环队列
466
理解整数在计算机中的表示
211
北京上门收画服务权威推荐榜单