多任务多领域学习的语义分割与序列标注研究
多任务多领域语义分割实验
在多任务多领域学习的语义分割研究中,涉及到多种数据集和训练策略,下面将详细介绍相关内容。
网络架构与训练细节
使用的网络架构是对Farabet等人提出架构的修改版本。其具体结构如下:
- 前两个卷积层:由7×7的滤波器组组成,之后是ReLU单元、2×2最大池化和批量归一化单元。
- 最后一个卷积层:是一个滤波器组,后面跟着ReLU单元、批量归一化单元和丢弃率为30%的Dropout层。
- 全连接层:第一个全连接线性层后接ReLU单元,最后一层后接数据集级别的softmax单元。
训练时,将每个RGB图像转换为YUV空间。训练输入示例由从图像中裁剪出的46×46大小的补丁xi、图像所属的数据集k以及补丁xi中心像素的标签yk i组成。使用大小为128的小批量随机梯度下降来更新参数,并在验证集上使用提前停止策略以防止过拟合,唯一的数据增强策略是对补丁进行水平翻转。
数据集详情
- KITTI数据集 :由七个研究小组部分标注,得到736张标注图像,几乎没有重复图像,分为训练集、验证集和测试集。根据作者提供的信息划分数据集,若未提供则随机划分,确保同一视频序列的图像在同一划分中。不同小组标注的标签不一致,例如Ladicky等人将树木和草分开标注,而Xu等人的子集中可能对应植被标签,草也可能对应地面标签。平均每个视频帧采样390,000个补丁,形成约2.8亿个适合训练深度学习架构的补丁数据集。
- Stanford Background数据