Ⅰ. 哈希结构
一、哈希的概念
顺序结构以及平衡树中,元素关键码与其存储位置之间没有对应的关系,因此在 查找一个元素时,必须要经过关键码的多次比较。顺序查找时间复杂度为 O(N)
,平衡树中为树的高度,即 O(
l
o
g
2
n
log_2 n
log2n),搜索的效率取决于搜索过程中元素的比较次数。
理想的搜索方法:可以不经过任何比较,一次直接从表中得到要搜索的元素。 如果构造一种存储结构,通过某种函数使元素的存储位置与它的关键码之间能够建立一一映射的关系,那么在查找时通过该函数可以很快找到该元素**。
当向该结构中:
-
插入元素:根据待插入元素的关键码,以此函数计算出该元素的存储位置并按此位置进行存放
-
搜索元素:对元素的关键码进行同样的计算,把求得的函数值当做元素的存储位置,在结构中按此位置取元素比较,若关键码相等,则搜索成功
该方式即为哈希(散列)方法,哈希方法中使用的转换函数称为哈希(散列)函数,构造出来的结构称为哈希表(或者称散列表)
例如:数据集合 {1,7,6,4,5,9}
哈希函数设置为:hash(key) = key % capacity (capacity
为存储元素底层空间总的大小)
用该方法进行搜索不必进行多次关键码的比较,因此搜索的速度比较快 问题:按照上述哈希方式,向集合中插入元素44,会出现什么问题?答案是发生哈希冲突(或哈希碰撞)!
二、哈希冲突
不同关键字通过相同哈希哈数计算出相同的哈希地址,该种现象称为 哈希冲突 或 哈希碰撞。把具有不同关键码而具有相同哈希地址的数据元素称为 “ 同义词 ”。
❓ 发生哈希冲突该如何处理呢?哈希冲突可以被解决吗?
💡 答案是 哈希冲突是无法被完全解决的,就像生活中无法完全解决一些矛盾一样,但是如果我们的处理方法越好,那么产生的矛盾也就是哈希冲突就会越少!
下面在介绍解决哈希冲突的方法之前,先介绍一下哈希函数!
三、哈希函数
引起哈希冲突的一个原因可能是:哈希函数设计不够合理。 哈希函数设计原则:
- 哈希函数的定义域必须包括需要存储的全部关键码,而如果散列表允许有
m
个地址时,其值域必须在0
到m-1
之间 - 哈希函数计算出来的地址能均匀分布在整个空间中
- 哈希函数应该比较简单
哈希函数作用:建立元素与其存储位置之前的对应关系的,在存储元素时,先通过哈希函数计算 元素在哈希表格中的存储位置,然后存储元素。好的哈希函数可以减少冲突的概率,但是不能够绝对避免,万一发生哈希冲突,得需要借助哈希冲突处理方法来 解决。
📧 常见哈希函数
-
直接定制法(常用)
- 取关键字的某个线性函数为散列地址:
Hash ( Key ) = A\*Key + B
- 优点:简单、均匀
- 缺点:需要事先知道关键字的分布情况
- 使用场景:适合查找比较小且连续的情况 (基数排序的思想就是直接定制法)
- 取关键字的某个线性函数为散列地址:
-
除留余数法(常用)
- 设散列表中允许的地址数为
m
,取一个不大于m
,但最接近或者等于m
的质数p
作为除数,按照哈希函数:Hash(key) = key% p(p<=m)
,将关键码转换成哈希地址。
- 设散列表中允许的地址数为
-
平方取中法
- 假设关键字为
1234
,对它平方就是1522756
,抽取中间的3
位227
作为哈希地址; 再比如关键字为4321
,对它平方就是18671041
,抽取中间的3
位671
(或710
)作为哈希地址 - 平方取中法适合:不知道关键字的分布,而位数又不是很大
- 假设关键字为
-
折叠法
- 折叠法是将关键字从左到右分割成位数相等的几部分(最后一部分位数可以短些),然后将这几部分叠加求和,并按散列表表长,取后几位作为散列地址。
- 折叠法适合事先不需要知道关键字的分布,适合关键字位数比较多的情况
-
随机数法
- 选择一个随机函数,取关键字的随机函数值为它的哈希地址,即
H(key) = random(key)
,其中random
为随机数函数。通常应用于关键字长度不等时采用此法
- 选择一个随机函数,取关键字的随机函数值为它的哈希地址,即
-
数学分析法
- 设有
n
个d
位数,每一位可能有r种不同的符号,这r种不同的符号在各位上出现的频率不一定相同,可能在某些位上分布比较均匀,每种符号出现的机会均等,在某些位上分布不均匀只有某几种符号经常出现。可根据散列表的大小,选择其中各种符号分布均匀的若干位作为散列地址。 - 假设要存储某家公司员工登记表,如果用手机号作为关键字,那么极有可能前7位都是 相同的,那么我们可以选择后面的四位作为散列地址,如果这样的抽取工作还容易出现 冲突,还可以对抽取出来的数字进行反转(如
1234
改成4321
)、右环位移(如1234
改成4123
)、左环移位、前两数与后两数叠加(如1234
改成12+34=46
)等方法。数字分析法通常适合处理关键字位数比较大的情况,如果事先知道关键字的分布且关键字的若干位分布较均匀的情况
- 设有
💡 注意:哈希函数设计的越精妙,产生哈希冲突的可能性就越低,但是无法避免哈希冲突
Ⅱ. 哈希冲突的解决
解决哈希冲突两种常见的方法是:闭散列和开散列
我们先把闭散列哈希表的框架搭起来!
// 哈希表每个空间给个标记
// EMPTY此位置空, EXIST此位置已经有元素, DELETE元素已经删除
enum Status
{
EXIST,
EMPTY,
DELETE
};
template<class K, class V>
struct HashData
{
pair<K, V> _kv;
Status _status = EMPTY; // 这里注意要给默认缺省值初始化,因为这里没有写构造函数,所以不会对枚举类型初始化
};
template<class K, class V>
class hashtable
{
public:
bool insert(const pair<K, V>& kv);
void _CheckCapacity();
HashData<K, V>* find(const K& key);
bool erase(const K& key);
private:
vector<HashData<K, V>> _tables;
size_t _n; // 有效数据个数
};
🏗 注:下面在实现闭散列的时候,我们先不会引入哈希函数,等到实现完闭散列后在指出问题的时候再用哈希函数进行问题处理!
一、闭散列
闭散列:也叫 开放定址法,当发生哈希冲突时,如果哈希表未被装满,说明在哈希表中必然还有空位置,那么可以把 key
存放到冲突位置中的下一个空位置中去。
那如何寻找下一个空位置呢?
① 线性探测
比如一下场景,现在需要插入元素 44
,先通过哈希函数计算哈希地址,hashAddr
为 4
,因此 44
理论上应该插在该位置,但是该位置已经放了值为 4
的元素,即发生哈希冲突。
线性探测:从发生冲突的位置开始,依次向后探测,直到寻找到下一个空位置为止。
-
插入
- 先查找一下是否存在重复的元素,是的话直接返回
false
- 然后判断一下容量和负载因子,看看需不需要扩容(下面会讲)
- 通过哈希函数(这里采用除留余数法)获取待插入元素在哈希表中的位置
- 如果该位置中没有元素则直接插入新元素,如果该位置中有元素发生哈希冲突,使用线性探测找到下一个空位置,插入新元素
bool insert(const pair<K, V>& kv) { // 进来先判断是否存在重复的元素 HashData<K, V>* ret = find(kv.first); if (ret != nullptr) return false; // 每次判断是否需要扩容(这个下面会讲) _CheckCapacity(); // 采用除留余数法 size_t start = kv.first % _tables.size(); size_t i = 0; size_t index = start; // 这里多定义一个index是为了等会的二次探测的代码兼容性 // 线性探测 while (_tables[index]._status == EXIST) { i++; index = start + i; index %= _tables.size(); // 记得取模哈希表的长度,防止越界出去 } // 插入新元素 _tables[index]._kv = kv; _tables[index]._status = EXIST; _n++; return true; }
- 先查找一下是否存在重复的元素,是的话直接返回
-
删除
-
采用闭散列处理哈希冲突时,不能随便物理删除哈希表中已有的元素,若直接删除元素会影响其他元素的搜索。比如删除元素
4
,如果直接删除掉,44
查找起来可能会受影响。因此线性探测采用标记的伪删除法来删除一个元素。简单点说,就是改变要删除元素的_status
为DELETE
即可!bool erase(const K& key) { HashData<K, V>* ret = find(key); if (ret == nullptr) { return false; } else { --_n; ret->_status = DELETE; // 直接改状态即可 return true; } }
-
-
查找
- 查找其实就是按插入时候使用的探测方式进行查找。
- 要注意的是查找的条件不只是
_tables[index]._kv.first == key
,还得加个_tables[index]._status == EXIST
,因为有可能该点元素的是不算入有效数据的,且数据的状态是DELETE
,所以不加这个条件的话,就会将DELETE
的节点也算入,所以我们得加入该条件,防止删除作用失效!
HashData<K, V>* find(const K& key)
{
if (_tables.size() == 0)
return nullptr;
// 按insert的监测方式查找
size_t start = key % _tables.size();
size_t i = 0;
size_t index = start + i;
while (_tables[index]._status != EMPTY)
{
// 这里必须加_status == EXIST,因为不加的话在删除后还是能查到该值
if (_tables[index]._kv.first == key && _tables[index]._status == EXIST)
return &_tables[index];
i++;
//index = start + i * i; // 这是二次探测
index = start + i;
index %= _tables.size();
}
// 没找到则返回空
return nullptr;
}
线性探测优点:实现简单
线性探测缺点:一旦发生哈希冲突,所有的冲突连在一起,容易产生数据 “ 堆积 ”,即:不同关键码占据了可利用的空位置,使得寻找某关键码的位置需要许多次比较,导致搜索效率降低。如何缓解呢?就是通过二次探测!不过我们先介绍一下扩容的机制:
思考:哈希表什么时候扩容?如何扩容?
总结:在闭散列的线性探测中,0.7
是负载因子区分冲突和元素个数的最优分水岭!
而我们后面讲的 闭散列的二次探测的话,0.5
的负载因子是最好的分水岭!
🌵 注意事项:为什么在实现的时候扩容函数的时候不直接调用 vector
的扩容函数呢❓❓❓
因为 vector
的扩容函数如 resize()
,不管是在原地扩容还是异地扩容,它最后都只是将数据拷贝过去,如下图:
但是其实我们需要的效果不是这样子的,我们需要的是这样子的:
所以我们这里可以 定义一个新的哈希表 newTables
,然后遍历原表,将原表中的数据按 newSize
映射到新表中去(调用哈希表自己的insert
)
void _CheckCapacity()
{
// 当表的大小为0 或者 负载因子超过0.7 则扩容
// 负载因子越小,冲突的概率越小,效率越高,但是空间浪费就太大
// 负载因子越大,冲突的概率越大,效率就越低,但是空间浪费就比较小
if (_tables.size() == 0 || (_n * 10) / _tables.size() > 7)
{
// 扩容
size_t newSize = _tables.size() == 0 ? 10 : _tables.size() * 2;
hashtable<K, V> newTables;
newTables._tables.resize(newSize);
// 这里不能直接调用vector的扩容函数,因为扩容后我们需要对表里的数据重新定位
// 方法:遍历原表,把原表中的数据,重新按newSize映射到新表
for (size_t i = 0; i < _tables.size(); ++i)
{
if (_tables[i]._status == EXIST)
newTables.insert(_tables[i]._kv);
}
// 最后交换新表和旧表的内容
_tables.swap(newTables._tables);
}
}
② 二次探测
线性探测的缺陷是产生冲突的数据堆积在一块,这与其找下一个空位置有关系,因为找空位置的方式就是挨着往后逐个去找,因此二次探测为了避免该问题,找下一个空位置的方法为:
H
i
H_i
Hi= (
H
0
+
i
2
H_0 + i^2
H0+i2 ) % m, 或者:
H
i
H_i
Hi= (
H
0
−
i
2
H_0 - i^2
H0−i2 ) % m 。其中: i = 1,2,3…
,是通过散列函数 Hash(x)
对元素的关键码 key
进行计算得到的位置, m
是表的大小。
简单的说,就是将线性探测中 i
的次数改为二次。
这里以插入为例,其实就是改了一行的代码:
bool insert(const pair<K, V>& kv)
{
HashData<K, V>* ret = find(kv.first);
if (ret != nullptr)
return false;
_CheckCapacity();
size_t start = kv.first % _tables.size();
size_t i = 0;
size_t index = start; // 这里多定义一个index是为了等会的二次探测的代码兼容性
// 二次探测
while (_tables[index]._status == EXIST)
{
i++;
index = start + i * i; //只需要改动这行即可!
//index = start + i; 这个是线性探测
index %= _tables.size(); // 记得取模哈希表的长度,防止越界出去
}
_tables[index]._kv = kv;
_tables[index]._status = EXIST;
_n++;
return true;
}
研究表明:当表的长度为质数且表装载因子 a
不超过 0.5 时,新的表项一定能够插入,而且任何一个位置都不会被探查两次。因此只要表中有一半的空位置,就不会存在表满的问题。在搜索时可以不考虑表装满的情况,但在插入时必须确保表的装载因子 a
不超过 0.5 ,如果超出必须考虑增容。
🌓 因此:闭散列最大的缺陷就是空间利用率比较低,这也是哈希的缺陷。
这就引入了一个新问题:参数类型问题
这是什么情况?为什么会出现这种情况?我们看看下面的代码就明白了:
void Myhash1()
{
// 这里我们把闭散列的哈希表放在了命名空间CloseHash中,所以要指定一下
CloseHash::hashtable<string, string> hs;
hs.insert(make_pair("liren", "利刃"));
}
可以发现,我们上面的代码中存的 Key
是 整形的时候是没问题的,但是如果是 string
呢?如下图:
对吧,这里出现了 bug
,我们就得实现让所有类型都能通用的方法!
💡 方法:通过哈希函数解决! 还记得我们上面讲的哈希函数吗,上面没有细讲如何在这里体现,这里它的价值就开始体现出来了!
并且我们之前不是说有优化的方法吗,现在先来看一下一些大佬是怎么做到优化的!
上面贴的链接里面就是各种不同的哈希函数算法,这里我们使用 BKDR
的算法:
注意:这里的 BKDR
算法 还是其他的算法都好,都是为了避免字符串或者字符的哈希冲突问题,因为字符串的长度是不定的,而且就算不同长度的字符串,ASCII
码值也可能是一样的,所以才采用这些哈希函数算法来尽量避免哈希冲突问题!
template <class K>
struct hash
{
// 对于普通的类型,直接返回key即可
size_t operator()(const K& key)
{
return key;
}
};
// 特化
template<>
struct hash<string>
{
size_t operator()(const string& s)
{
// 采用BKDR算法
size_t value = 0;
for (auto ch : s)
{
value *= 31;
value += ch;
}
return value;
}
};
并且这里我们运用的是模板的特化!
🐛 这样子我们就得去 insert
和 find
函数里面去添加一些小细节也就是哈希函数啦:
❓ 问题:为什么上面哈希函数中的返回值都是 size_t
而不能是 int
呢?
💡 解答: 因为如果我们传过去的是一个负数比如 tmp.insert(make_pair(-999, 199));
要知道负数也是可以取模的,但是结果是个负数,那么当我们后面在访问的时候,访问了负数下标位置的元素,那么就是越界访问了,所以这里我们返回值传的就是 size_t
比较合理!
纠错:上面图片中的insert的第二行判断时候是 if ( ret != nullptr ) 才对
二、开散列
① 开散列的概念
开散列法又叫链地址法 ( 开链法、拉链法、哈希桶 ) ,首先对关键码集合用散列函数计算散列地址,具有相同地址的关键码归于同一子集合,每一个子集合称为一个桶,各个桶中的元素通过一个单链表链接起来,各链表的头结点存储在哈希表中。
从上图可以看出,开散列中每个桶中放的都是发生哈希冲突的元素。
🚗 开散列的框架如下:
namespace LinkHash
{
template <class K, class V>
struct HashNode
{
pair<K, V> _kv;
HashNode<K, V>* _next;
HashNode(const pair<K, V>& kv, HashNode<K, V>* next = nullptr)
:_kv(kv)
, _next(next)
{}
};
template <class K, class V, class HashFunc = Hash<K>>
class hashtable
{
typedef HashNode<K, V> Node;
public:
bool insert(const pair<K, V>& kv);
void _CheckCapacity();
Node* find(const K& key);
bool erase(const K& key);
private:
vector<Node*> _tables; // 指针数组
size_t _n = 0; // 有效数据个数
};
}
② 开散列的操作
- 插入
-
首先检查一下是否有重复的元素,有的话返回
false
-
然后检查一下是否需要扩容(与闭散列不一样,等会会讲)
-
进行插入操作(与闭散列不同):
- 就相当于单链表中的插入嘛,但是这里要注意的是,如果我们选择的是尾插,那么我们就得遍历一遍链表,那么效率就低了,没什么意义!所以我们选择的是 头插!
- 就相当于单链表中的插入嘛,但是这里要注意的是,如果我们选择的是尾插,那么我们就得遍历一遍链表,那么效率就低了,没什么意义!所以我们选择的是 头插!
-
最后将有效个数
_n++
即可
-
bool insert(const pair<K, V>& kv)
{
// 检测是否有重复元素
Node* ret = find(kv.first);
if (ret != nullptr)
return false;
// 检测是否需要扩容
_CheckCapacity();
HashFunc _hs; // 哈希函数
size_t index = _hs(kv.first) % _tables.size();
Node* newnode = new Node(kv);
// 头插
newnode->_next = _tables[index];
_tables[index] = newnode;
++_n;
return true;
}
- 删除
- 首先判断一下该元素是否存在,不存在则直接返回
false
- 接着就是删除操作,由于我们实现的是单链表,所以这里其实不太方便,但是我们可以在查找该元素的同时,标记一个
prev
用于标记该元素的上一个位置,且prev
初始化为nullptr
,然后就会有以下的情况:- 若
prev
为nullptr
,则说明当前位置最多只有一个元素,那么这相当于是单链表中的头删 - 若
prev
不为nullptr
,则说明当前位置有多个元素,则相当于单链表中的任意位置删除
- 若
- 处理完后记得将有效个数
_n--
- 首先判断一下该元素是否存在,不存在则直接返回
bool erase(const K& key)
{
if (_tables.size() == 0)
return false;
HashFunc _hs; // 哈希函数
size_t index = _hs(key) % _tables.size();
Node* pre = nullptr;
Node* cur = _tables[index];
while (cur != nullptr)
{
if (cur->_kv.first != key)
{
pre = cur;
cur = cur->_next;
}
else
{
// 找到了开始删除
if (pre == nullptr) // 头删
{
_tables[index] = cur->_next;
}
else // 中间删
{
pre->_next = cur->_next;
}
delete cur;
// 记得减少有效个数
--_n;
return true;
}
}
// 没找到直接返回false
return false;
}
- 查找
- 查找比较简单,其实就是遍历单链表
- 若找不到则返回
nullptr
即可
Node* find(const K& key)
{
if (_tables.size() == 0)
return nullptr;
HashFunc _hs; // 哈希函数
size_t index = _hs(key) % _tables.size();
Node* cur = _tables[index];
while (cur != nullptr)
{
if (cur->_kv.first == key)
return cur;
cur = cur->_next;
}
return nullptr;
}
③ 开散列的扩容
桶的个数是一定的,随着元素的不断插入,每个桶中元素的个数不断增多,极端情况下,可能会导致一个桶中链表节点非常多,会影响哈希表的性能,因此在一定条件下需要对哈希表进行增容,那该条件怎么确认呢?开散列最好的情况是:每个哈希桶中刚好挂一个节点,再继续插入元素时,每一次都会发生哈希冲突,因此,在元素个数刚好等于桶的个数时,可以给哈希表增容。
🔺 注意事项:与闭散列一样,开散列的扩容也不能直接对其底层的 vector
直接使用 resize
等扩容函数,因为我们希望的是扩容后,一些桶里的数据又被均摊到别的桶中去,所以我们这里重新开辟一个 vecotr
变量,然后我们遍历原来的 vector
,将其元素按 newSize
插入到新的 vector
中!
void _CheckCapacity()
{
// 当表为空或者负载因子为1的时候扩容
if (_tables.size() == 0 || _n == _tables.size())
{
// 与闭散列不同,开散列这里不推荐新建一个哈希表进行插入,而是直接新建一个vector插入即可
size_t newSize = _tables.size() == 0 ? 10 : _tables.size() * 2;
vector<Node*> newTables(newSize);
HashFunc _hs; // 哈希函数
for (size_t i = 0; i < _tables.size(); ++i)
{
Node* cur = _tables[i];
// 重新头插到newTables
while (cur != nullptr)
{
Node* next = cur->_next;
// 头插
size_t index = _hs(cur->_kv.first) % newTables.size();
cur->_next = newTables[index];
newTables[index] = cur;
// 继续往下循环遍历单链表
cur = next;
}
// 保险起见,将旧表_tables的指针变成空指针
_tables[i] = nullptr;
}
_tables.swap(newTables);
}
}
三、关于扩容的选择(素数)
除留余数法,最好模一个素数,为什么?如何每次快速取一个类似两倍关系的素数?
唯一的原因是 避免将值聚类到少量存储桶中,分布更均匀的哈希表将更一致地执行。
🚅 通过一个素数表,我们每次取下一个两倍左右大小的素数即可!
// 获取下一个素数
size_t GetNextPrime(size_t prime)
{
const int PrimeCount = 28;
static const size_t primeList[PrimeCount] =
{
53, 97, 193, 389, 769,1543, 3079, 6151, 12289, 24593,
49157, 98317, 196613, 393241, 786433,1572869, 3145739, 6291469, 12582917,
25165843,50331653, 100663319, 201326611, 402653189, 805306457,1610612741, 3221225473, 4294967291
};
size_t i = 0;
for (i = 0; i < PrimeCount; ++i)
{
if (primeList[i] > prime)
return primeList[i];
}
return primeList[i];
}
然后将 _CheckCapacity()
中的 newSize
改一下即可!
size_t newSize = GetNextPrime(_tables.size());
Ⅲ. 闭散列和开散列的比较
应用链地址法处理溢出,需要增设链接指针,似乎增加了存储开销。事实上: 由于开地址法必须保持大量的空闲空间以确保搜索效率,如二次探查法要求装载因子 a <= 0.7
,而表项所占空间又比指针大的多,所以使用链地址法反而比开地址法节省存储空间。
Ⅳ. 哈希表的完整代码
#pragma once
#include <iostream>
#include <string>
#include <vector>
using namespace std;
template <class K>
struct Hash
{
size_t operator()(const K& key)
{
return key;
}
};
// 特化
template<>
struct Hash <string>
{
size_t operator()(const string& s)
{
// BKDR
size_t value = 0;
for (auto ch : s)
{
value *= 31;
value += ch;
}
return value;
}
};
namespace CloseHash
{
enum Status
{
EXIST,
EMPTY,
DELETE
};
template <class K, class V>
struct HashData
{
pair<K, V> _kv;
Status _status = EMPTY;
};
template <class K, class V, class HashFunc = Hash<K>>
class hashtable
{
public:
bool insert(const pair<K, V>& kv)
{
// 进来先判断是否存在重复的元素
HashData<K, V>* ret = find(kv.first);
if (ret)
return false;
// 每次判断是否需要扩容
_CheckCapacity();
HashFunc _hs; //哈希函数
// 采用除留余数法
size_t start = _hs(kv.first) % _tables.size();
size_t i = 0;
size_t index = start; // 这里多定义一个index是为了等会的二次探测的代码兼容性
// 线性探测
while (_tables[index]._status == EXIST)
{
i++;
//index = start + i * i;
index = start + i;
index %= _tables.size(); // 记得取模哈希表的长度,防止越界出去
}
// 插入新元素
_tables[index]._kv = kv;
_tables[index]._status = EXIST;
_n++;
return true;
}
// 获取下一个素数
size_t GetNextPrime(size_t prime)
{
const int PrimeCount = 28;
static const size_t primeList[PrimeCount] =
{
53, 97, 193, 389, 769,1543, 3079, 6151, 12289, 24593,
49157, 98317, 196613, 393241, 786433,1572869, 3145739, 6291469, 12582917,
25165843,50331653, 100663319, 201326611, 402653189, 805306457,1610612741, 3221225473, 4294967291
};
size_t i = 0;
for (i = 0; i < PrimeCount; ++i)
{
if (primeList[i] > prime)
return primeList[i];
}
return primeList[i];
}
void _CheckCapacity()
{
// 当表为空或者负载因子为1的时候扩容
if (_tables.size() == 0 || _n == _tables.size())
{
// 与闭散列不同,开散列这里不推荐新建一个哈希表进行插入,而是直接新建一个vector插入即可
size_t newSize = GetNextPrime(_tables.size());
vector<Node*> newTables(newSize);
KeyOfT kt;
HashFunc _hs; // 哈希函数
for (size_t i = 0; i < _tables.size(); ++i)
{
Node* cur = _tables[i];
// 重新头插到newTables
while (cur != nullptr)
{
Node* next = cur->_next;
// 头插
size_t index = _hs(kt(cur->_data)) % newTables.size();
cur->_next = newTables[index];
newTables[index] = cur;
// 继续往下循环遍历单链表
cur = next;
}
// 保险起见,将旧表_tables的指针变成空指针
_tables[i] = nullptr;
}
_tables.swap(newTables);
}
}
HashData<K, V>* find(const K& key)
{
if (_tables.size() == 0)
return nullptr;
HashFunc _hs; //哈希函数
// 按insert的监测方式查找
size_t start = _hs(key) % _tables.size();
size_t i = 0;
size_t index = start + i;
while (_tables[index]._status != EMPTY)
{
// 这里必须加_status == EXIST,因为不加的话在删除后还是能查到该值
if (_tables[index]._kv.first == key && _tables[index]._status == EXIST)
return &_tables[index];
i++;
//index = start + i * i;
index = start + i;
index %= _tables.size();
}
// 没找到则返回空
return nullptr;
}
bool erase(const K& key)
{
HashData<K, V>* ret = find(key);
if (ret == nullptr)
{
return false;
}
else
{
--_n;
ret->_status = DELETE;
return true;
}
}
private:
vector<HashData<K, V>> _tables;
size_t _n = 0; // 有效数据个数
};
}
namespace LinkHash
{
template <class K, class V>
struct HashNode
{
pair<K, V> _kv;
HashNode<K, V>* _next;
HashNode(const pair<K, V>& kv, HashNode<K, V>* next = nullptr)
:_kv(kv)
, _next(next)
{}
};
template <class K, class V, class HashFunc = Hash<K>>
class hashtable
{
typedef HashNode<K, V> Node;
public:
bool insert(const pair<K, V>& kv)
{
// 检测是否有重复元素
Node* ret = find(kv.first);
if (ret != nullptr)
return false;
// 检测是否需要扩容
_CheckCapacity();
HashFunc _hs; // 哈希函数
size_t index = _hs(kv.first) % _tables.size();
Node* newnode = new Node(kv);
// 头插
newnode->_next = _tables[index];
_tables[index] = newnode;
++_n;
return true;
}
void _CheckCapacity()
{
// 当表为空或者负载因子为1的时候扩容
if (_tables.size() == 0 || _n == _tables.size())
{
// 与闭散列不同,开散列这里不推荐新建一个哈希表进行插入,而是直接新建一个vector插入即可
size_t newSize = _tables.size() == 0 ? 10 : _tables.size() * 2;
vector<Node*> newTables(newSize);
HashFunc _hs; // 哈希函数
for (size_t i = 0; i < _tables.size(); ++i)
{
Node* cur = _tables[i];
// 重新头插到newTables
while (cur != nullptr)
{
Node* next = cur->_next;
// 头插
size_t index = _hs(cur->_kv.first) % newTables.size();
cur->_next = newTables[index];
newTables[index] = cur;
// 继续往下循环遍历单链表
cur = next;
}
// 保险起见,将旧表_tables的指针变成空指针
_tables[i] = nullptr;
}
_tables.swap(newTables);
}
}
Node* find(const K& key)
{
if (_tables.size() == 0)
return nullptr;
HashFunc _hs; // 哈希函数
size_t index = _hs(key) % _tables.size();
Node* cur = _tables[index];
while (cur != nullptr)
{
if (cur->_kv.first == key)
return cur;
cur = cur->_next;
}
return nullptr;
}
bool erase(const K& key)
{
if (_tables.size() == 0)
return false;
HashFunc _hs; // 哈希函数
size_t index = _hs(key) % _tables.size();
Node* pre = nullptr;
Node* cur = _tables[index];
while (cur != nullptr)
{
if (cur->_kv.first != key)
{
pre = cur;
cur = cur->_next;
}
else
{
// 找到了开始删除
if (pre == nullptr) // 头删
{
_tables[index] = cur->_next;
}
else // 中间删
{
pre->_next = cur->_next;
}
delete cur;
// 记得减少有效个数
--_n;
return true;
}
}
// 没找到直接返回false
return false;
}
private:
vector<Node*> _tables; // 指针数组
size_t _n = 0; // 有效数据个数
};
}