在 2015 年的计算机视觉领域顶会 ICCV 中,HD-CNN(Hierarchical Deep Convolutional Neural Networks)模型横空出世,在当时极具挑战性的 ImageNet 和 CIFAR100 两大数据集上刷新纪录。
其分层架构设计和条件执行机制不仅为基于大规模数据的图像分类开辟全新路径,更是目前风头正盛的混合专家模型(Mixture of Experts,MoE)在视觉领域的早期探索和尝试。
这项研究是由目前在香港大学计算与数据科学学院的俞益洲老师在 UIUC 的博士生严志程主导完成,首次在深度神经网络中成功实现了“分而治之”的层次化推理,并达到了当时十分优秀的性能,成为深度学习模型结构创新的经典案例。
论文标题:
HD-CNN: Hierarchical Deep Convolutional Neural Networks for Large Scale Visual Recognition
论文地址:
https://arxiv.org/abs/1410.0736(预印版)
https://www.cv-foundation.org/openaccess/content_iccv_2015/papers/Yan_HD-CNN_Hierarchical_Deep_ICCV_2015_paper.pdf(ICCV 2015 CVF版)
图像分类的困境:“扁平化”结构的先天不足
传统深度卷积神经网络(CNN)采用端到端的“扁平”结构,即通过共享的全连接层直接输出最终的类别概率分布。这种设计在应对 ImageNet 等千级分类任务时暴露出根本性缺陷——不同类别间的视觉可区分性存在显著差异。
例如,区分“苹果”和“公交车”易如反掌,因为二者在很多视觉属性上都有显著的差异,但辨别“苹果”与“橙子”则需要更精细的特征捕捉,因为二者的视觉特征较为接近。
然而,现有CNN通常会平等对待所有类别,导致两个关键问题产生:1)复杂类别缺乏专用特征提取器;2)共享的全连接层成为信息瓶颈。
以 CIFAR100 数据集为例,这种“一刀切”的设计具有明显劣势,因为该数据集本身包含 20 个粗粒度类别(如“水果蔬菜”和“交通工具”),每个粗类包含 5 个细类,但传统 CNN 未能利用这种层次结构。
HD-CNN:分层架构的破局之道
▲ 图1 HD-CNN 整体架构
如图 1 所示,HD-CNN 的创新在于将分类任务分解为"粗筛-细判"两阶段流程,其核心架构包含四大模块:
1. 共享卷积层:底层网络提取通用的低级特征(边缘、纹理等)
2. 粗分类模块:输出粗粒度类别概率,作为进一步细分类的路由依据
3. 细分类模块:设置多个专家网络,每个专家网络专注特定类别子集
4. 概率融合层:加权融合各专家的预测结果,作为网络的最终预测结果
关键技术突破体现在三个层面:
1. 自动构建类别层次
通过预训练的 VGG-16 生成混淆矩阵,采用谱聚类算法将易混淆细类归入同一粗类。更创新的是引入“重叠粗类”机制—允许每个细类属于多个粗类,通过阈值控制重叠度。例如,在 ImageNet 实验中,该方法自动构建 89 个重叠粗类,显著提升路由精度。
2. 分层训练策略
预训练模型:粗分类器继承已有的 ImageNet 预训练模型的权重;每个细分类器仅用对应粗类的数据微调
全局微调:引入“粗类别一致性”正则项,约束粗类概率分布与训练集先验一致
动态路由:测试时根据粗类概率阈值条件执行专家网络,显著减少计算量
3. 工程优化创新
参数压缩:对细分类器的全连接层进行乘积量化,内存占用降低 50%
条件执行:仅激活概率属于 top-k 的专家网络,大大提升网络效率
实验结果
在 CIFAR100 测试中,以 Network-In-Network(NIN)网络为 baseline 的 HD-CNN 将错误率从 35.27% 降至 32.62%,超越同期最佳模型 1.16%。在 ImageNet 上也具有突出的性能优势,例如,基于 NIN 的 HD-CNN 的 Top-5 错误率为 15.80%,刷新当时单模型纪录。
图 2 基于 ImageNet 数据集的多阶段分类可视化结果。其中,每行代表一个测试样本。(a):带有真实标签的测试图像。(b):基础模型的 Top-5 预测结果。(c):前 5 个粗分类概率。列(d)-(f):前 3 个细分类模块得到的 Top-5 预测结果。(g):由 HD-CNN 输出的最终 Top-5 预测结果。
特别值得关注的是错误修正案例(图2)。当基础 CNN 将“寄居蟹”误判为“海星”时,HD-CNN 通过激活“甲壳类”专家网络,利用专属特征提取器成功纠偏。这种“专家会诊”机制在细粒度分类场景展现强大优势。
MoE 的先驱:分层路由的早期实践
尽管论文未明确提及 MoE 概念,但 HD-CNN 的设计理念与混合专家模型高度契合,可视为视觉领域最早的 MoE 实践:
1. 门控机制:粗分类器充当路由网络,动态分配专家权重
2. 专家专业化:每个细分类器专注特定视觉子域
3. 条件计算:仅执行相关专家,预示稀疏激活的演进方向
相比于后续相继提出的 MoE-ViT、V-MoE 等视觉 MoE 模型,HD-CNN 提前五年实现了三个关键思想:
通过聚类分析自动构建专家分工
共享底层+独立顶层的参数复用
基于置信度的动态计算分配
虽然这种路由设计不及现代软路由灵活,但在计算资源受限的时代,首次验证了分层条件计算在视觉任务上的可行性。
启示与影响:
当我们将视角拉回大模型时代,HD-CNN 揭示的“分治策略”与当前 MoE 架构的爆发形成奇妙呼应。这项早期工作证明:通过层次化分解和条件计算,神经网络既能保持参数效率,又能提升在复杂任务上的性能——这正是现代大模型的底层逻辑。
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:hr@paperweekly.site
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
·