登录
/
注册
首页
论坛
其它
首页
科技
业界
安全
程序
广播
Follow
关于
导读
排行榜
资讯
发帖说明
登录
/
注册
账号
自动登录
找回密码
密码
登录
立即注册
搜索
搜索
关闭
CSDN热搜
程序园
精品问答
技术交流
资源下载
本版
帖子
用户
软件
问答
教程
代码
写记录
写博客
小组
VIP申请
VIP网盘
网盘
联系我们
发帖说明
道具
勋章
任务
淘帖
动态
分享
留言板
导读
设置
我的收藏
退出
腾讯QQ
微信登录
返回列表
首页
›
业界区
›
业界
›
海量数据如何“安家”?一文读懂哈希、范围和一致性哈希 ...
海量数据如何“安家”?一文读懂哈希、范围和一致性哈希三大分片策略
[ 复制链接 ]
田雅宁
2025-9-8 11:38:43
程序园永久vip申请,500美金$,无限下载程序园所有程序/软件/数据/等
将单机问题转化为分布式解决方案时,首要任务是对问题进行分解,使得集群中的每台机器负责处理原问题的一个子集。无论是计算任务还是存储任务,其操作对象都是数据。因此,如何将海量数据有效地分解并分配到集群的不同节点上,即数据分布(也常称为数据分片,Data Partitioning/Sharding),是构建分布式系统的基础。
哈希分布
哈希分布(Hash-based Partition)是通过哈希函数(如MD5、SHA-1或简单取模)将数据的键(Key)映射到固定范围的哈希值,再根据哈希值将数据分配到不同的节点。
哈希分布(Hash-based Partition)通过一个确定的哈希函数(如MurmurHash、CRC32,或者简单的取模运算;MD5、SHA-1等加密哈希也可用于需要强随机性的场景,但通常计算开销较大)作用于数据的某个键(Key),将键映射到一个固定范围的哈希值。然后,根据哈希值(例如,hash(key) % num_nodes)将数据分配到对应的节点。
良好的哈希函数可以将数据尽可能均匀地散列到各个节点,避免数据倾斜,从而实现负载均衡。然而,当集群中的节点数量发生变化(增减节点)时,如果采用简单的取模方式(% num_nodes),绝大多数数据的哈希映射关系都会改变,导致大规模的数据迁移(如节点从10个扩容到11个,约90%的数据需要迁移)。
数据范围分布
数据范围分布(Range-based Partition)根据数据的键值(如时间戳、自增ID、字母顺序等具有序关系的属性)将其划分为连续的区间,每个节点负责存储一个或多个这样的数据区间。例如,一个订单表可以按月份范围(2023-01 至 2023-03,2023-04 至 2023-06等)划分,并将不同月份的数据存储在不同节点上。
由于数据在物理上按键顺序存储,范围查询(如查询某个时间段内的所有订单)非常高效,数据局部性好。然而,如果某些键值范围的数据量远大于其他范围,或者访问频率远高于其他范围(例如,当前月份的订单总是被频繁访问),则可能导致对应节点的负载过高,形成热点。
一致性哈希分布
一致性哈希(Consistent Hashing Partition)是为了解决传统哈希分布在节点数量动态变化时导致大规模数据迁移问题而提出的优化算法。它将所有节点和数据的键都通过同一个哈希函数映射到一个逻辑上的环形哈希空间(例如 0 到 232−1)。数据键被分配给在环上沿顺时针方向寻找到的第一个节点。
Ketama Hash 是经典实现之一。Rendezvous Hashing、Jump Consistent Hash、Maglev Hash 等也是在不同场景下具有特定优势的一致性哈希变种。
Ketama Hash又称割环法。在Ketama Hash中,将节点通过哈希方式,映射到一个范围是[0,2^32]的环上,同理,把数据也通过哈希方式映射到环上,然后按顺时针方向查找第一个哈希值大于等于数据的哈希值的节点,该节点即为数据所分配到的节点。而更好点的做法,可以为每个物理节点分配若干个虚拟节点,然后把虚拟节点映射到哈希环,分配给每个物理节点虚拟节点数量对应每个物理节点的权重。
如下图所示,数据K1映射到了节点2,数据K2映射到节点3。
1)扩容:对于割环法的扩容,只需在环上增加一组扩容节点生成的虚拟节点;
2)缩容:同样的,缩容时只需拿掉缩容节点对应的所有虚拟节点;
3)故障容灾:割环法的故障容灾与缩容情况一样,节点故障时只需将故障节点对应的所有虚拟节点从环上去掉。
如上图所示,当节点2故障时,将节点2对应的2个虚拟节点去掉,而原本映射到节点2的对象K1和K2分别映射到了节点1和节点4。
未完待续
很高兴与你相遇!如果你喜欢本文内容,记得关注哦!!!
来源:程序园用户自行投稿发布,如果侵权,请联系站长删除
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!
哈希
海量
数据
如何
安家
相关帖子
像Git一样管理数据:深入解析数据库并发控制MVCC的实现
Hadoop大数据在2025-2026年和AI智能问数平台的规划与实践
从海量数据到 AI 决策的落地方法
如何实现 vxe-tree 树组件拖拽节点后进行二次确认提示
Oracle如何查询SEQUENCE的当前值而不增加SEQUENCE的值
期货数据对接指南,用于获取黄金、白银、原油等大宗商品的数据。
期货数据对接指南,用于获取黄金、白银、原油等大宗商品的数据。
Kafka如何保证「消息不丢失」,「顺序传输」,「不重复消费」
工作后如何进行持续学习
回复
使用道具
举报
提升卡
置顶卡
沉默卡
喧嚣卡
变色卡
千斤顶
照妖镜
相关推荐
业界
像Git一样管理数据:深入解析数据库并发控制MVCC的实现
0
71
虾氲叱
2025-12-08
业界
Hadoop大数据在2025-2026年和AI智能问数平台的规划与实践
0
685
挚魉
2025-12-09
业界
从海量数据到 AI 决策的落地方法
0
761
梁宁
2025-12-09
代码
如何实现 vxe-tree 树组件拖拽节点后进行二次确认提示
0
156
啪炽
2025-12-10
安全
Oracle如何查询SEQUENCE的当前值而不增加SEQUENCE的值
0
926
魁睥
2025-12-10
安全
期货数据对接指南,用于获取黄金、白银、原油等大宗商品的数据。
0
800
府扔影
2025-12-11
安全
期货数据对接指南,用于获取黄金、白银、原油等大宗商品的数据。
0
14
赏勿
2025-12-11
业界
Kafka如何保证「消息不丢失」,「顺序传输」,「不重复消费」
0
26
步雪卉
2025-12-12
安全
工作后如何进行持续学习
0
620
祖娅曦
2025-12-12
回复
(2)
凤患更
2025-11-26 23:56:00
回复
使用道具
举报
照妖镜
程序园永久vip申请,500美金$,无限下载程序园所有程序/软件/数据/等
喜欢鼓捣这些软件,现在用得少,谢谢分享!
官厌
2025-12-1 01:28:27
回复
使用道具
举报
照妖镜
程序园永久vip申请,500美金$,无限下载程序园所有程序/软件/数据/等
喜欢鼓捣这些软件,现在用得少,谢谢分享!
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
回复
本版积分规则
回帖并转播
回帖后跳转到最后一页
浏览过的版块
安全
签约作者
程序园优秀签约作者
发帖
田雅宁
2025-12-1 01:28:27
关注
0
粉丝关注
21
主题发布
板块介绍填写区域,请于后台编辑
财富榜{圆}
anyue1937
9994893
kk14977
6845356
3934307807
991123
4
xiangqian
638210
5
宋子
9984
6
韶又彤
9998
7
闰咄阅
9993
8
刎唇
9993
9
俞瑛瑶
9998
10
蓬森莉
9951
查看更多
今日好文热榜
831
开源项目分享 : Gitee热榜项目 2025-12-13
805
postgreSQL 中的自定义操作符
683
ROS2核心概念之通信接口
474
拿着顶级服务器跑慢查询,就像开着法拉利送
16
一文打通软件测试中pytest框架
948
vscode远程调试python程序,基于debugpy库
318
正点原子HP20智能加热台,重新定义精密加热
716
K8S 中使用 YAML 安装 ECK
1003
一种可落地的任务令牌锁机制:设计原理、实
150
Flink学习笔记:状态类型和应用
581
Oracle19c impdp失败报ORA-20000案例
205
Markdown写作常用组件
714
fs1.6-fs1.10代码移植方案
49
大疆不同任务类型执行逻辑,上云API源码分
547
对标MinIO!全新一代分布式文件系统诞生!
247
上海房屋漏水反复修不好?芮生建设提供免费
927
2025 年度西安网站制作公司推荐:定制开发
414
15.结构型 - 组合模式 (Composite Pattern)
173
C++ 语言特性的变更可能让你的防御成为马奇
280
CentOS 7 上 yt-dlp Youtube高画质下载问题