导言
近年以来,随着深度学习在图像识别领域取得巨大突破(以AI之父Geoffry Hinton在2012年提出的高精度AlexNet图像识别网络为代表),掀起了以神经网络为基础的深度学习研究热潮。目前为止,图像处理已成为深度学习中重要的研究领域,几乎所有的深度学习框架都支持图像处理工具。
当前深度学习在图像处理领域的应用可分为三方面:图像处理(基本图像变换)、图像识别(以神经网络为主流的图像特征提取)和图像生成(以神经风格迁移为代表)。本文第一部分介绍深度学习中图像处理的常用技巧,第二部分浅析深度学习中图像处理的主流应用,最后对本文内容进行简要总结。
一.深度学习中图像处理的常见技巧
目前几乎所有的深度学习框架均支持图像处理工具包,包括Google开发的Tensorflow、Microsoft的CNTK等。以操作简单的Keras前端,Tensorflow后端开发框架为例介绍图像处理中的常见操作技巧:
1. 数据增强
制约深度学习发展的三要素分别为算法、算力和数据,其中算法性能由设计方式决定,算力供给的关键在于硬件处理器效能,算法和算力相同时,数据量的多少直接决定模型性能的最终优劣。进行图像识别时,经常出现因原始图像数目不足而导致的输出曲线过拟合,从而无法训练出能泛化到新图像集上的模型。数据增强根据当前已知的图像数据集生成更多的训练图像,具体实现是利用多种能够生成可信图像的随机变换来增加原始图像数量。数据增强前后的对比结果如图1所示: