作者丨文永亮
学校丨哈尔滨工业大学(深圳)
研究方向丨目标检测、GAN
研究动机
这是一篇发表于 CVPR 2019 的关于显著性目标检测的 paper,在 U 型结构的特征网络中,高层富含语义特征捕获的位置信息在自底向上的传播过程中可能会逐渐被稀释,另外卷积神经网络的感受野大小与深度是不成正比的。
目前很多流行方法都是引入 Attention(注意力机制),但是本文是基于 U 型结构的特征网络研究池化对显著性检测的改进,具体步骤是引入了两个模块GGM (Global Guidance Module,全局引导模块) 和 FAM (Feature Aggregation Module,特征整合模块),进而锐化显著物体细节,并且检测速度能够达到 30FPS。因为这两个模块都是基于池化做的改进所以作者称其为 PoolNet,并且放出了源码:
https://github.com/backseason/PoolNet
模型架构
两个模块
GGM(全局引导模块)
我们知道高层语义特征对挖掘显著对象的详细位置是很有帮助的,但是中低层的语义特征也可以提供必要的细节。因为在 top-down 的过程中,高层语义信息被稀释,而且实际上的感受野也是小于理论感受野,所以对于全局信息的捕捉十分的缺乏,导致显著物体被背景吞噬。
因此作者提出了 GGM 模块,GGM 其实是 PPM(Pyramid Pooling module,金字塔池化模块)的改进并且加上了一系列的 GGFs(Global Guiding Flows,全局引导流),这样做的好处是,在特征图上的每层都能关注到显著物体,另外不同的是,GGM 是一个独立的模块,而 PPM 是在 U 型架构中,在基础网络(backbone)中参与引导全局信息的过程。
其实这部分论文说得并不是很清晰,没有说 GGM 的详细结构,我们可以知道 PPM [7] 的结构如下: