为什么 Deep Learning 最先在语音识别和图像处理领域取得突破
当然,深度学**不是神,并不是无所不能。从上面的分析我们知道,是深度学**看起来无比光明的前景让大家把它应用到语音、图像领域。
而它之所以能在语音和图像领域获得成功,又回过头促进深度学**发展,背后必然是有一定的道理的。第一个非常重要的原因就是问题1中提到的——大量数据(硬件装备各个领域都一样,就不考虑了)。为什么这么说?
比如语音识别中用到的深度学**技术,除去最新的端到端技术,大部分都是在上世纪就已经有了的,但是到2012年,LiDeng和Hinton等人才写出了语音识别中划时代的文章“DeepNeuralNetworksforAcousticModelinginSpeechRecognition”,中间差的是什么,一个关键就是大量的数据。
举个例子,一个语音识别系统,当训练数据达到3000小时时能有较好的效果。3000小时什么概念?可以想象一下自己听一段演讲,然后把它逐字逐句敲下来,这才多少小时?
而谷歌、微软他们的训练数据则更是海量的几万个小时。同样,在图像识别领域,ImageNet则有百万张图片,这么多的数据让当年六万张手写数字的mnist情何以堪。
正是这些大量的数据,使得深度学**应用到这两个领域成为可能。这里可能有稍微了解语音识别的同学要提出疑问:“有很多研究单位现在研究小数据量下的深度学**,不是说必须要数据量大才管用么?
”注意,这里所谓的小数据只是某一类别的数据少,而全体“可用”数据仍然很多。比如在语音识别中,我可以说训练粤语的数据量很少,但是我可以通过已有的大量普通话数据,还帮助我提高识别粤语的性能。
因此,最终还是需要数据作为支撑。第二个非常非常重要的原因是——特征原始性的保留。在模式识别领域,一句重要的话是:“Featuresmatter”。
如何最大限度保留原始信息地表示输入的特征,对于识别是一个重要的问题。神经网络一个特点是它能够作为特征抽取器。什么意思呢?
比如在图像识别中,人们发现神经网络每层的权重实际上学**到了图像的某些“成分”;而且越高层,成分越具体。
在第一层可能是一