文章目录
1 应对数据集的不完美
“别人采集的数据”,问题非常之多。不要轻易相信“别人采集的数据”的,因为数据采集中包含了太多的不确定性。数据挖掘研究人员只是意识到了“别人采集的数据”导致的“垃圾进,垃圾出”,但是,并不了解数据采集里面的弯弯绕。
1.1 拿来即用(经典机器学习)
经典机器学习是不研究数据采集的,对于数据,通常只是对给定的数据集,执行特征选择或者特征抽取操作。
1.2 另辟蹊径(深度学习)
深度学习则是用另一种方法解决数据问题的。
比如Iris数据集的4个特征:萼片长度、萼片宽度、花瓣长度和花瓣宽度,《深度学习》一书里面把它们称为“手工设计的特征”。
深度学习放弃了这种手工方法,而是使用一种叫“表示学习”的方法来获取特征,它可以通过较简单的表示(特征)来表达复杂表示(特征),解决了表示学习中的核心问题。从而,使得深度学习可以不完全依赖“别人采集的数据”。
深度学习可以从图像像素中识别简单特征,然后用简单特征组合成越来越复杂的特征。从这个意义上说,深度学习的“深度”,其实是指数据。因为,如果我们有好数据,可以不必要“深度”学习的。