贪心算法的高逼格应用——Huffman编码

肥猪猪爸

已于 2025-01-08 10:20:03 修改

阅读量1k

点赞数 13

CC 4.0 BY-SA版权

分类专栏：数据结构与算法文章标签：算法贪心算法 python 霍夫曼树

于 2022-10-22 16:47:32 首次发布

本文链接：https://blog.csdn.net/weixin_37522117/article/details/127463405

14天阅读挑战赛
努力是为了不平庸~

Huffman编码

        在计算机的世界里，通常的编码方法有固定长度编码和不等长度编码两种。采用不等长度编码能使总码长度较短。
        Huffman编码利用字符的使用频率来编码，是不等长编码方法，它使得经常使用的字符编码较短，不常使用的字符编码较长。这便使编码之后的字符串的平均长度、期望值降低，从而达到无损压缩数据的目的。
        例如，在英文中，e的出现机率最高，而z的出现概率则最低。当利用Huffman编码对一篇英文进行压缩时，e极有可能用一个比特来表示，而z则可能花去25个比特（不是26）。用普通的表示方法时，每个英文字母均占用一个字节，即8个比特。二者相比，e使用了一般编码的1/8的长度，z则使用了3倍多。倘若我们能实现对于英文中各个字母出现概率的较准确的估算，就可以大幅度提高无损压缩的比例。
        除了使编码尽可能短，不等长编码还需解决另外一个问题，即不能有二义性，例如，ABCD四个字符如果编码如下：

   A:0
   B:1
   C:01
   D:10

那么现在有一列数0110，该怎样翻译呢? 是翻译为ABBA，ABD，CBA，还是CD? 那么如何消除二义性呢? 解决的办法是任何一个字符的编码不能是另一个字符编码的前缀，即前缀码特性。
哈夫曼编码很好地解决了上述关键问题，被广泛应用于数据压缩，尤其是远距离通信和大容量数据存储方面。

算法详解

Huffman编码的基本思想是以字符的使用频率作为权值构建一棵Huffman树，然后利用Huffman树对字符进行编码。构造一棵Huffman树，是将所要编码的字符作为叶子结点，该字符在文件中的使用频率作为叶子结点的权值，以自底向上的方式，通过n-1次的“合并”运算后构造出的一棵树，核心思想是权值越大的叶子离根越近。

回到本文题目，那贪心算法和Huffman编码有什么关系呢？

Huffman算法在构建Huffman树时采用的就是贪心策略，每次从树的集合中取出没有双亲且权值最小的两棵树作为左右子树，构造一棵新树，新树根节点的权值为其左右孩子结点权值之和，将新树插入到树的集合中，求解步骤如下。
(1) 确定合适的数据结构。编写程序前需要考虑的情况有：
● Huffman树