找回密码
 会员注册
查看: 18|回复: 0

你还应该知道的哈希冲突解决策略

[复制链接]

4

主题

0

回帖

13

积分

新手上路

积分
13
发表于 2024-10-5 03:57:50 | 显示全部楼层 |阅读模式
哈希是一种通过对数据进行压缩, 从而提高效率的一种解决方法,但由于哈希函数有限,数据增大等缘故,哈希冲突成为数据有效压缩的一个难题。本文主要介绍哈希冲突、解决方案,以及各种哈希冲突的解决策略上的优缺点。一、哈希表概述哈希表的哈希函数输入一个键,并向返回一个哈希表的索引。可能的键的集合很大,但是哈希函数值的集合只是表的大小。哈希函数的其他用途包括密码系统、消息摘要系统、数字签名系统,为了使这些应用程序按预期工作,冲突的概率必须非常低,因此需要一个具有非常大的可能值集合的散列函数。密码系统:给定用户密码,操作系统计算其散列,并将其与存储在文件中的该用户的散列进行比较。(不要让密码很容易被猜出散列到相同的值)。消息摘要系统:给定重要消息,计算其散列,并将其与消息本身分开发布。希望检查消息有效性的读者也可以使用相同的算法计算其散列,并与发布的散列进行比较。(不要希望伪造消息很容易,仍然得到相同的散列)。这些应用的流行哈希函数算法有:md5:2^128个值(找一个冲突键,需要哈希大约2 ^64个值)sha-1:2^160个值(找一个冲突键,需要大约2^80个值)二、哈希冲突来看一个简单的实例吧,假设采用hash函数:H(K) = K mod M,插入这些值:217、701、19、30、145H(K) =217%7=0H(K) =701%7=1H(K) =19%7=2H(K) =30%7=2H(K) =145%7=5上面实例很明显 19 和 30 就发生冲突了。三、冲突解决策略除非您要进行“完美的散列”,否则必须具有冲突解决策略,才能处理表中的冲突。同时,该策略必须允许查找,插入和删除正确运行的操作!冲突解决技术可以分为两类:开散列方法( open hashing,也称为拉链法,separate chaining )和闭散列方法( closed hashing,也称为开地址方法,open addressing )。这两种方法的不同之处在于:开散列法把发生冲突的关键码存储在散列表主表之外,而闭散列法把发生冲突的关键码存储在表中另一个槽内。下面介绍业内比较流行的hash冲突解决策略:线性探测(Linear probing)双重哈希(Double hashing)随机散列(Random hashing)分离链接(Separate chaining)上面线性探测、双重哈希、随机散列都是闭散列法,而分离链接则是开散列法。1、线性探测(Linear probing)插入一个值使用散列函数H(K)在大小为M的表中插入密钥K时:设置 indx = H(K)如果表位置indx已经包含密钥,则无需插入它。Over否则,如果表位置indx为空,则在其中插入键。Over其他碰撞。设置 indx =(indx + 1)mod M.如果 indx == H(K),则表已满!就只能做哈希表的扩容了因此,线性探测基本上是在发生碰撞时对空槽进行线性搜索。优点:易于实施;总是找到一个位置(如果有);当表不是很满时,平均情况下的性能非常好。缺点:表的相邻插槽中会形成“集群”或“集群”键;当这些簇填满整个阵列的大部分时,性能会严重下降,因为探针序列执行的工作实际上是对大部分阵列的穷举搜索。简单例子如哈希表大小M = 7, 哈希函数:H(K) = K mod M。插入这些值:701, 145, 217, 19, 13, 749H(K) =701%7=1H(K) =145%7=5H(K) =217%7=0H(K) =19%7=2H(K) =13%7=1(冲突) -->2(已经有值) -->3(插入位置3)H(K) =749%7=2(冲突) -->3(已经有值) -->4(插入位置4)可见,如果哈希表如果不是很大,随着数据插入,冲突也会组件发生,探针遍历次数将会逐渐变低,检索过程也就成为穷举。检索一个值如果使用线性探测将键插入表中,则线性探测将找到它们!当使用散列函数 H(K)在大小为N的表中搜索键K时:设置 indx = H(K)如果表位置indx包含键,则返回FOUND。否则,如果表位置 indx 为空,则返回NOT FOUND。否则设置 indx =(indx + 1)modM。如果 indx == H(K),则返回NOT FOUND。就只能做哈希表的扩容了问题:如何从使用线性探测的表中删除键?能否进行“延迟删除”,而只是将已删除密钥的插槽标记为空?很明显,在线性探测很难做到,如果把位置置为空,那么如果后面的值也是哈希冲突,线性探测插入,则再也无法遍历这些值了。2、双重哈希(Double hashing)线性探测冲突解决方案会导致表中出现簇,因为如果两个键发生碰撞,则探测到的下一个位置对于这两个键都是相同的。双重哈希的思想:使偏移到下一个探测到的位置取决于键值,因此对于不同的键可以不同。需要引入第二个哈希函数 H 2(K),用作探测序列中的偏移量(将线性探测视为 H 2(K)== 1 的双重哈希)。对于大小为 M 的哈希表,H 2(K)的值应在 1到M-1 的范围内;如果M为质数,则一个常见选择是 H2(K)= 1 +((K / M)mod(M-1))。然后,用于双哈希的插入算法为:设置 indx = H(K); offset= H 2(K)如果表位置indx已经包含密钥,则无需插入它。Over否则,如果表位置 indx 为空,则在其中插入键。Over其他碰撞。设置 indx =(indx + offset)mod M.如果 indx == H(K),则表已满!就只能做哈希表的扩容了哈希表为质数情况,双重hash在实践中非常有效双重 Hash 也见:https://blog.csdn.net/chenxuegui1234/article/details/1034542853、随机散列(Random hashing)与双重哈希一样,随机哈希通过使探测序列取决于密钥来避免聚类。使用随机散列时,探测序列是由密钥播种的伪随机数生成器的输出生成的(可能与另一个种子组件一起使用,该组件对于每个键都是相同的,但是对于不同的表是不同的)。然后,用于随机哈希的插入算法为:创建以 K 为种子的 RNG。设置indx = RNG.next() mod M。如果表位置 indx 已经包含密钥,则无需插入它。Over否则,如果表位置 indx 为空,则在其中插入键。Over其他碰撞。设置 indx = RNG.next() mod M.如果已探测所有M个位置,则放弃。就只能做哈希表的扩容了。随机散列很容易分析,但是由于随机数生成的“费用”,它并不经常使用。双重哈希在实践中还是经常被使用。4、分离链接(Separate chaining)在具有哈希函数 H(K)的表中插入键K时设置 indx = H(K)将关键字插入到以 indx 为的链接列表中。(首先搜索列表,以避免重复。)在具有哈希函数H(K)的表中搜索键K时设置 indx = H(K)使用线性搜索在以 indx 为的链表中搜索关键字。使用哈希函数 H(K)删除表中的键K时设置 indx = H(K)删除链接列表中以 indx 为的键优点:随着条目数量的增加,平均案例性能保持良好。甚至超过M;删除比开放地址更容易实现。缺点:需要动态数据,除数据外还需要存储指针,本地性较差,导致缓存性能较差。很明显,Java7 的 HashMap 就是一种分裂链接的实现方式。分离链哈希分析请记住表的填充程度的负载系数度量:α = N / M。其中M是表格的大小,并且 N 是表中已插入的键数。通过单独的链接,可以使 α> 1 给定负载因子α,我们想知道在最佳,平均和最差情况下的时间成本。成功找到新键插入和查找失败(这些相同),最好的情况是O(1),最坏的情况是O(N)。让我们分析平均情况分裂链接的平均成本假设负载系数为 α = N / M 的表在M个链接列表中总共分配了N个项目(其中一些可能为空),因此每个链接列表的平均项目数为:如果查找/插入失败,则必须穷举搜索表中的链表之一,并且表中链表的平均长度为α。因此,使用单独链接进行插入或不成功查找的比较平均次数为成功查找后,将搜索包含目标密钥的链接列表。除目标密钥外,该列表中平均还有(N-1)/ M个密钥;在找到目标之前,将平均搜索其中一半。因此,使用单独链接成功找到的比较平均次数为当α
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 会员注册

本版积分规则

QQ|手机版|心飞设计-版权所有:微度网络信息技术服务中心 ( 鲁ICP备17032091号-12 )|网站地图

GMT+8, 2025-1-12 01:58 , Processed in 0.841862 second(s), 25 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表