【数据结构】Hash表(2)

发布时间：2021-04-01 04:34 所属栏目：53 来源：网络整理

导读：同时我们还要确定下这个20亿整数的取值范围是多少。如果取值范围是1~20亿的话，我们也可以用int来存key，如果是更大的取值范围的话，就需要考虑用long来存了。我们以极端坏的情况来考虑下这个问题：也就是20一个数

同时我们还要确定下这个20亿整数的取值范围是多少。如果取值范围是1~20亿的话，我们也可以用int来存key，如果是更大的取值范围的话，就需要考虑用long来存了。我们以极端坏的情况来考虑下这个问题：也就是20一个数据全是不同的数据，这些数据的取值范围是超过20亿的，因此我们需要用long类型来存key值，应int类型来存value值，20亿条记录的话大概需要26G左右的内存空间。这样的话显然内存不足，因此一次性统计20亿个数风险很大。

解决方案：将包含有20亿个数的大文件分成16个小文件，利用哈希函数，这样的话，同一个重复的数肯定不会分到不同的文件中去，并且，如果哈希函数足够好，那么这16个文件中不同的数也不会大于2亿（20 / 16）。然后我们在这16个文件中依次统计就可以了，最后进行汇总得到重复数最多的数。（汇总的时候我只需要取出每个小文件中出现次数最多的数，然后将这16个数进行比较就行了）

问题：如果这个20亿个数都相同怎么判断呢？

（编辑：ASP站长网）