重温经典！十年前的视觉MoE雏形：HD-CNN用分层路由预演大模型逻辑

最新推荐文章于 2025-08-19 18:49:14 发布

转载最新推荐文章于 2025-08-19 18:49:14 发布 · 3 阅读

CC 4.0 BY-SA版权

原文链接：https://mp.weixin.qq.com/s?__biz=MzIwMTc4ODE0Mw==&mid=2247707172&idx=3&sn=507506dc2e6b7aa381870f9169276f02&chksm=97f46352679c3adb1249d72e24479867252f7145fff1026326bc88a59018a9681fd7c7c77ead&scene=126&sessionid=0

文章标签：

#cnn #人工智能 #神经网络 #深度学习 #机器学习

在 2015 年的计算机视觉领域顶会 ICCV 中，HD-CNN（Hierarchical Deep Convolutional Neural Networks）模型横空出世，在当时极具挑战性的 ImageNet 和 CIFAR100 两大数据集上刷新纪录。

其分层架构设计和条件执行机制不仅为基于大规模数据的图像分类开辟全新路径，更是目前风头正盛的混合专家模型（Mixture of Experts，MoE）在视觉领域的早期探索和尝试。

这项研究是由目前在香港大学计算与数据科学学院的俞益洲老师在 UIUC 的博士生严志程主导完成，首次在深度神经网络中成功实现了“分而治之”的层次化推理，并达到了当时十分优秀的性能，成为深度学习模型结构创新的经典案例。

论文标题：

HD-CNN: Hierarchical Deep Convolutional Neural Networks for Large Scale Visual Recognition

论文地址：

https://arxiv.org/abs/1410.0736（预印版）

https://www.cv-foundation.org/openaccess/content_iccv_2015/papers/Yan_HD-CNN_Hierarchical_Deep_ICCV_2015_paper.pdf（ICCV 2015 CVF版）

图像分类的困境：“扁平化”结构的先天不足

传统深度卷积神经网络（CNN）采用端到端的“扁平”结构，即通过共享的全连接层直接输出最终的类别概率分布。这种设计在应对 ImageNet 等千级分类任务时暴露出根本性缺陷——不同类别间的视觉可区分性存在显著差异。

例如，区分“苹果”和“公交车”易如反掌，因为二者在很多视觉属性上都有显著的差异，但辨别“苹果”与“橙子”则需要更精细的特征捕捉，因为二者的视觉特征较为接近。

然而，现有CNN通常会平等对待所有类别，导致两个关键问题产生：1）复杂类别缺乏专用特征提取器；2）共享的全连接层成为信息瓶颈。

以 CIFAR100 数据集为例，这种“一刀切”的设计具有明显劣势，因为该数据集本身包含 20 个粗粒度类别（如“水果蔬菜”和“交通工具”），每个粗类包含 5 个细类，但传统 CNN 未能利用这种层次结构。

HD-CNN：分层架构的破局之道

▲ 图1 HD-CNN 整体架构

如图 1 所示，HD-CNN 的创新在于将分类任务分解为"粗筛-细判"两阶段流程，其核心架构包含四大模块：

1. 共享卷积层：底层网络提取通用的低级特征（边缘、纹理等）

2. 粗分类模块：输出粗粒度类别概率，作为进一步细分类的路由依据

3. 细分类模块：设置多个专家网络，每个专家网络专注特定类别子集

4. 概率融合层：加权融合各专家的预测结果，作为网络的最终预测结果

关键技术突破体现在三个层面：

1. 自动构建类别层次

通过预训练的 VGG-16 生成混淆矩阵，采用谱聚类算法将易混淆细类归入同一粗类。更创新的是引入“重叠粗类”机制—允许每个细类属于多个粗类，通过阈值控制重叠度。例如，在 ImageNet 实验中，该方法自动构建 89 个重叠粗类，显著提升路由精度。

2. 分层训练策略

预训练模型：粗分类器继承已有的 ImageNet 预训练模型的权重；每个细分类器仅用对应粗类的数据微调
全局微调：引入“粗类别一致性”正则项，约束粗类概率分布与训练集先验一致
动态路由：测试时根据粗类概率阈值条件执行专家网络，显著减少计算量

3. 工程优化创新

参数压缩：对细分类器的全连接层进行乘积量化，内存占用降低 50%
条件执行：仅激活概率属于 top-k 的专家网络，大大提升网络效率

实验结果

在 CIFAR100 测试中，以 Network-In-Network（NIN）网络为 baseline 的 HD-CNN 将错误率从 35.27% 降至 32.62%，超越同期最佳模型 1.16%。在 ImageNet 上也具有突出的性能优势，例如，基于 NIN 的 HD-CNN 的 Top-5 错误率为 15.80%，刷新当时单模型纪录。

图 2 基于 ImageNet 数据集的多阶段分类可视化结果。其中，每行代表一个测试样本。（a）：带有真实标签的测试图像。（b）：基础模型的 Top-5 预测结果。（c）：前 5 个粗分类概率。列（d）-（f）：前 3 个细分类模块得到的 Top-5 预测结果。（g）：由 HD-CNN 输出的最终 Top-5 预测结果。

特别值得关注的是错误修正案例（图2）。当基础 CNN 将“寄居蟹”误判为“海星”时，HD-CNN 通过激活“甲壳类”专家网络，利用专属特征提取器成功纠偏。这种“专家会诊”机制在细粒度分类场景展现强大优势。