论文【Effificient Multiple Organ Localization in CT Image Using 3D Region Proposal Network】
前几年的CT图像器官检测中的深度学习方法常用2D slices,比如利用冠状面、矢状面、横断面的CT slices训练3个独立的2D网络,通过3个预测B-box确定器官的形心和范围等等一些2D方法。
这些策略有两个局限性:
第一,相邻层很相似,冗余大,一层一层预测时间消耗多。
第二,不能充分利用CT图像的3D空间信息。
因此作者尝试利用建立3D网络进行器官检测,首先作者做了将Faster R-CNN 3D化进行CT器官检测的实验,精度可与state-of-art方法相比,并且速度更快。同时考虑到CT器官特性,即很多器官具有单一性,不会出现第二个,作者做了进一步改进直接对同一标签的B-boxes进行融合。将R-CNN框架扩展到3D有人做过,但据作者所知,这是第一次有人将其扩展到3D CT器官定位领域。
本文的贡献:
1、提出基于3D RPN的CT器官定位方法,相比于最优的2D ConvNet-based方法快4到18倍。
2、设计了一种新的backbone网络,可以提取更高分辨率的特征图,比最优方法精度更高,对小器官更是如此。
3、建立了一个器官定位的公开数据集,其中包括11种器官及其B-box标注。这是当前第一个器官定位公开数据集。
数据增强:
1、输入CT中随机采样。采样CT的slice数量最小为50,采样中截断的B-boxes看为背景。
2、沿冠状面和矢状面法线进行10mm内平移。
Backbone:作者基于AlexNet设计了提取特征图的backbone,其中应用了skip connection获取丰富的空间和语义信息,利用反卷积进行上采样,每个卷积层后应用Batch normalization。
Region Proposal Network for B-Box Prediction:
类似于faster R-CNN的anchor box,预设了一些先验框的尺寸大小,每个特征图cell定义了64个先验框,最终为每个先验框输出K+1维类别的分数和6维的先验框调整参数。
去除冗余:生成的候选框包含大量冗余,用一下策略去除:
1、类别分数大于0.9。
2、类别分数在所有相关候选框top 10%。
3、由于器官具有唯一性,直接将1、2剩余候选框加权平均。
Loss Functions:
先为所有的先验框设置label,与ground truth的IOU大于阈值T1的标记为该ground truth label > 0,IOU小于阈值T2的标记为背景label=0,处于中间的标记为-1不参与训练loss。然后计算LOSS:
前者是分类loss,后者则是包围框回归loss。
由于背景过多,为了平衡类别为包括背景在内的每一类添加系数,大小为该类别数量分之一。
回归loss直接从faster R-CNN中使用的L1 loss扩展而来。
实验:利用IOU、预测框与ground truth之间的wall distance和质心距离作为衡量指标。部分结果如下:
上半部分实验结果不在同一数据集下得到,下半部分实验在本文发布的新数据LiTS上得到,De.和Humpire.的实验结果为作者复现。