HashMap
是 Java 中基于哈希表实现的 Map
接口的类,用于存储键值对。其底层实现原理主要包括以下几个方面:
1. 数据结构
HashMap
的底层数据结构主要由数组和链表(或红黑树)组成:
- 数组:用于存储桶(
bucket
),每个桶是一个链表或红黑树的头节点。 - 链表或红黑树:当哈希冲突发生时,键值对会以链表形式存储;当链表长度超过一定阈值(默认 8)时,链表会转换为红黑树,以提高查找效率。
2. 哈希函数
HashMap
通过哈希函数将键(key
)映射到数组的索引位置。具体步骤如下:
- 调用键的
hashCode()
方法获取哈希值。 - 通过扰动函数(如
(h = key.hashCode()) ^ (h >>> 16)
)对哈希值进行进一步处理,以减少哈希冲突。 - 将处理后的哈希值与数组长度取模(
(n - 1) & hash
),得到数组的索引位置。
3. 插入操作
- 计算键的哈希值,确定数组索引。
- 如果该位置为空,直接插入键值对。
- 如果该位置不为空(哈希冲突):
- 如果是链表,遍历链表查找是否已存在相同键:
- 如果存在,更新值。
- 如果不存在,将键值对插入链表尾部。
- 如果是红黑树,调用红黑树的插入方法。
- 如果是链表,遍历链表查找是否已存在相同键:
- 如果链表长度超过阈值(默认 8),将链表转换为红黑树。
- 如果数组容量超过负载因子(默认 0.75)与当前容量的乘积,触发扩容。
4. 查找操作
- 计算键的哈希值,确定数组索引。
- 如果该位置为空,返回
null
。 - 如果该位置不为空:
- 如果是链表,遍历链表查找键。
- 如果是红黑树,调用红黑树的查找方法。
- 找到匹配的键,返回对应的值;否则返回
null
。
5. 扩容机制
当 HashMap
中的元素数量超过负载因子与当前容量的乘积时,会触发扩容:
- 创建一个新的数组,容量为原数组的两倍。
- 重新计算所有键值对的哈希值,并将其放入新数组的对应位置。
- 扩容后,链表或红黑树可能会被拆分到不同的桶中。
6. 线程安全性
HashMap
不是线程安全的。在多线程环境下,可能会出现数据不一致或死循环等问题。可以使用 Collections.synchronizedMap()
或 ConcurrentHashMap
来实现线程安全。
数组的大小为什么是2的幂次方
HashMap 中数组的大小设计为 2 的幂次方,主要是为了提高性能并简化哈希值的映射计算。
1. 高效的索引计算
HashMap
需要通过哈希值确定键值对在数组中的存储位置。计算索引的公式为:
index = (n - 1) & hash
其中:
n
是数组的长度(2 的幂次方)。hash
是键的哈希值。&
是按位与操作。
当 n
是 2 的幂次方时,n - 1
的二进制表示形式是全 1
。例如:
- 如果
n = 16
,则n - 1 = 15
,二进制为1111
。 - 如果
n = 32
,则n - 1 = 31
,二进制为11111
。
这种特性使得 (n - 1) & hash
的结果等价于 hash % n
(哈希值对数组长度取模),但 按位与操作比取模运算更快,从而提高了性能。
2. 均匀分布哈希值
当数组长度是 2 的幂次方时,(n - 1) & hash
可以充分利用哈希值的所有位,从而减少哈希冲突的概率。如果数组长度不是 2 的幂次方,某些索引位置可能永远不会被使用,导致哈希分布不均匀。
例如:
- 如果
n = 10
(不是 2 的幂次方),n - 1 = 9
,二进制为1001
。 - 在这种情况下,哈希值的某些位会被忽略,导致索引分布不均匀。
3. 扩容时的优化
HashMap
在扩容时,数组长度会变为原来的 2 倍(仍然是 2 的幂次方)。扩容后,原有的键值对需要重新分配到新的数组中。由于数组长度是 2 的幂次方,重新计算索引时可以利用以下特性:
- 如果原来的索引是
index
,扩容后的索引要么是index
,要么是index + oldCapacity
。 - 这种特性使得重新分配键值对时,只需要检查哈希值的某一位即可,而不需要重新计算整个哈希值,从而提高了扩容的效率。
4. 简化实现
数组长度为 2 的幂次方时,许多操作(如索引计算、扩容)可以通过位运算实现,代码更简洁且效率更高。例如:
- 计算数组长度:
n = 1 << bitCount
。 - 计算索引:
index = (n - 1) & hash
。 - 扩容时的新容量:
newCapacity = oldCapacity << 1
。
总结
数组长度设计为 2 的幂次方,主要是为了:
- 提高索引计算的效率(使用位运算代替取模运算)。
- 均匀分布哈希值,减少冲突。
- 优化扩容时的性能。
- 简化代码实现。
这种设计是 HashMap
高效运行的重要基础。