哈希函数(Hash Function)

最新推荐文章于 2025-06-26 16:10:45 发布

原创最新推荐文章于 2025-06-26 16:10:45 发布 · 1.8k 阅读

·

9

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#哈希算法 #数据结构 #算法

算法专栏收录该内容

3 篇文章

订阅专栏

哈希函数（Hash Function）是一种将输入数据（通常称为键或 key）映射到固定长度输出（通常称为 哈希值 或 哈希码）的数学函数。

哈希函数的主要用途是将输入数据通过算法快速转换成数组或哈希表中的索引，以便实现快速查找、插入和删除操作。

哈希函数的工作原理

1. 输入数据（键）：

• 输入数据可以是整数、字符串、甚至更复杂的数据结构。

• 例如：一个用户的 ID、字符串 “hello”，或者一个文件的内容。

2. 哈希函数的处理：

• 哈希函数根据输入数据计算出一个固定长度的值，这个值通常是一个整数。

• 计算过程依赖于哈希算法，它将输入数据的特征压缩到固定的范围内。

3. 输出（哈希值）：

• 哈希值通常用作数组的索引，表示输入数据被映射到的存储位置。

• 如果输出范围固定为 [0, m-1] ，那么 m 是哈希表的大小。

哈希函数的性质

一个好的哈希函数应该满足以下性质：

1. 确定性（Deterministic）

• 对同一个输入，哈希函数必须总是输出相同的哈希值。

• 例如：输入 “hello” 必须始终映射到同一个哈希值。

2. 均匀性（Uniformity）

• 哈希值应该均匀分布在输出范围中，避免出现哈希值过于集中导致的冲突。

• 如果键的分布不均匀，某些位置的槽可能会非常拥挤。

3. 快速计算（Efficiency）

• 哈希函数应该能够快速计算哈希值，通常要求时间复杂度为 O(1) 。

4. 最小冲突（Collision Minimization）

• 理想情况下，不同的输入数据应该映射到不同的哈希值（无冲突）。

• 然而，在实际中，由于输入数据无限而哈希表大小有限，总会存在冲突。

5. 不可逆性（Irreversibility）（仅针对密码学哈希函数）

• 给定哈希值，几乎不可能反推出原始输入。这是密码学领域的关键性质。

冲突与解决方法

什么是冲突？

• 冲突（Collision）发生在两个不同的输入数据 $x_1$ 和 $x_2$ 映射到相同的哈希值时：

$h(x_1) = h(x_2) \quad \text{and} \quad x_1 \neq x_2$

• 由于哈希表的大小是有限的，而输入数据可以是无限的，因此冲突是不可避免的。

解决冲突的方法

1. 开放地址法（Open Addressing）：

• 当冲突发生时，将元素存储到表中下一个空闲槽。

• 例如：线性探测（Linear Probing）、二次探测（Quadratic Probing）。

2. 链地址法（Chaining）：

• 每个槽维护一个链表，所有映射到同一槽的元素都存储在链表中。

• 这种方法简单且灵活，但需要额外的链表存储空间。

3. 再哈希法（Rehashing）：

• 如果冲突太多，可以使用另一个哈希函数重新计算哈希值。

4. 分区哈希（Cuckoo Hashing）：

• 一个输入键可以在多个哈希表中存储，冲突时将旧数据“踢出”并重新计算。

常见哈希函数

1. 简单哈希函数

• 对输入数据直接取模：

$h(x) = x \mod m$

其中 m 是哈希表的大小。

• 优点：简单、快速。

• 缺点：如果 m 选择不好（比如与数据存在某种规律相关），会导致冲突增多。

2. 乘法哈希函数

• 使用输入数据的某些部分参与哈希值的计算，例如：

$h(x) = \lfloor m \cdot (x \cdot A \mod 1) \rfloor$

其中 A 是一个常数，通常取 0 < A < 1 。

3. 字符串哈希函数

• 针对字符串的哈希计算方法，例如：

$h(s) = (s[0] \cdot p^0 + s[1] \cdot p^1 + \dots + s[k] \cdot p^k) \mod m$

其中 p 是一个质数， m 是表的大小。

4. 密码学哈希函数

• 常用于安全领域，例如 MD5、SHA-256 等。

• 它们满足强不可逆性和抗碰撞性，用于校验文件完整性和存储密码。

哈希函数的应用

1. 哈希表

• 哈希函数的最常见用途，用于快速查找、插入和删除操作。

• 例如：Python 的字典（dict）和集合（set）。

2. 数据校验

• 哈希函数可以生成文件的哈希值，用于检查文件的完整性。

• 例如：文件传输后使用哈希值校验是否损坏。

3. 密码学

• 用于加密、数字签名、消息认证码等。

• 例如：存储用户密码的哈希值，而非明文密码。

4. 负载均衡

• 在分布式系统中，哈希函数用于将任务均匀分配到不同的服务器。

5. 去重和查找

• 通过哈希值快速检测重复数据，或者用于集合类操作（例如快速交集或并集计算）。

总结

• 定义：哈希函数将输入数据映射到固定长度的哈希值。

• 关键性质：确定性、均匀性、快速计算、最小冲突。

• 核心问题：冲突不可避免，但可以通过开放地址法、链地址法等方式解决。

• 应用场景：哈希表、密码学、数据校验、负载均衡、去重等。

一个好的哈希函数在于设计的均匀性和适用性，而其选择则取决于具体的应用场景。

博客等级

码龄5年

10
原创

224
点赞

169
收藏

169
粉丝

关注

私信

热门文章

分类专栏

论文阅读 4篇
知识库 3篇
算法 3篇

上一篇：: Highly Confident Local Structure Based Consensus Graph Learning forIncomplete Multi-view Clustering

下一篇：: 单纯形相关知识点

最新评论

【论文笔记】Integrating Vision-Language Semantic Graphs in Multi-View Clustering
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
【论文笔记】Multi-View Attributed Graph Clustering
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。