知识蒸馏：从神经网络中蒸馏知识 Distilling the Knowledge in a Neural Network

最新推荐文章于 2025-06-14 18:25:11 发布

Channon_

最新推荐文章于 2025-06-14 18:25:11 发布

阅读量3.9k

点赞数 9

CC 4.0 BY-SA版权

分类专栏： Paper Reading Deep Learning 文章标签：信息压缩

本文链接：https://blog.csdn.net/Cai_deLong/article/details/111148001

知识蒸馏是一种从大型复杂网络（教师网络）向小型精简网络（学生网络）转移知识的技术。通过教师网络的软目标指导学生网络的训练，实现模型压缩和知识迁移。蒸馏过程中，使用温度系数T调整概率分布，以帮助小网络学习。最终目标是使学生网络的概率分布接近教师网络，通过KL散度作为损失函数进行监督学习。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1.原理介绍

Hinton的文章《Distilling the Knowledge in a Neural Network》首次提出了知识蒸馏的概念，通过引入教师网络用以诱导学生网络的训练，实现知识迁移。所以其本质上和迁移学习有点像，但实现方式是不一样的。用“蒸馏”这个词来形容这个过程是相当形象的。用下图来解释这个过程。

教师网络：大规模，参数量大的复杂网络模型。难以应用到设备端的模型。
学生网络：小规模，参数量小的精简网络模型。可应用到设备端的模型，俗称可落地模型。

我们可以认为教师网络是一个混合物，网络复杂的结构就是杂质，是我们不需要用到的东西，而网络学到的概率分布就是精华，是我们需要的。如上图所示，对于教师网络的蒸馏过程，我们可以形象的认为是通过温度系数T，将复杂网络结构中的概率分布蒸馏出来，并用该概率分布来指导精简网络进行训练。整个通过温度系数T的蒸馏过程由如下公式实现：