这篇文章是对Nature上《deep learning》文章的翻译。原作者 Yann LeCun, Yoshua Bengio& Geoffrey Hinton。
这篇文章的中心思想是深入探讨深度学习在机器学习中的革命性贡献,重点介绍其在特征学习、监督学习、无监督学习等方面的突破,并阐述其在图像识别、语音识别、自然语言理解等领域的应用。
主要内容概述:
深度学习的背景和原理:
深度学习是特征学习的一种方法,允许计算模型通过多个处理层来学习数据的多层次抽象。深度学习模型由多个简单但非线性的模块组成,通过逐层转换输入,最终得到对数据更抽象的表示。
深度学习与传统机器学习的不同之处在于,它不需要手动设计特征提取器,而是通过数据学习特征,使其在解决复杂问题时非常有效。
深度学习的应用领域:
图像识别:深度卷积神经网络(ConvNets)在图像、视频等的处理上取得了重大突破,能够自动识别图像中的物体、区域等。
语音识别:深度神经网络同样在语音识别中取得了领先地位,尤其是在大词汇量的任务上表现卓越。
自然语言处理:深度学习在自然语言理解中取得了显著成果,如主题分类、情感分析、问答系统、机器翻译等。
监督与无监督学习:
监督学习是深度学习中最常见的形式,通过标记的训练数据来优化模型性能。
无监督学习虽然在深度学习复兴中起到了催化作用,但其效果在一定程度上被监督学习的成功所掩盖。不过,作者认为无监督学习在未来会更加重要,因为它更符合人类和动物通过观察学习的方式。
模型和算法的进展:
卷积神经网络(ConvNets)在计算机视觉任务中被广泛应用,尤其是在特征识别和合并相似特征的过程中非常有效。
循环神经网络(RNNs)和长短期记忆网络(LSTM) 在处理时间序列数据(如文本和语音)方面展现了优势。
未来展望:
文章指出,深度学习与复杂推理相结合的系统是人工智能发展的重要方向。尽管深度学习在语音和手写识别方面已有较长时间的应用,但未来需要新的范式来替代基于规则的符号操作。
分析与解释:
深度学习的优势在于它能够自动从数据中学习有效特征,从而避免了传统机器学习中手动设计特征提取器的繁琐工作。这种优势使其在复杂高维数据的处理上表现非常出色,例如在图像、文本、语音等领域。
多层次的特征表示使得深度学习能够通过逐层抽象,从原始输入中提取出有用的模式,逐步构建对数据的复杂理解。这一特性使得深度学习在分类、检测等任务上超越了传统模型。
未来的挑战和方向:作者强调深度学习未来将与复杂推理结合,以实现更为智能的系统。这意味着深度学习不仅仅是在特征提取和模式识别上的应用,更是朝向推理和决策的方向迈进,这将为人工智能领域带来更大的突破。
总体来说,这篇文章系统地介绍了深度学习的原理、现状和未来发展方向,强调了深度学习在多个领域中的变革性贡献以及其在人工智能中的广阔应用前景。
深度学习
深度学习允许由多个处理层组成的计算模型学习数据的多层次抽象表示。这些方法极大地改进了语音识别、视觉对象识别、目标检测等领域的最先进水平,以及药物发现和基因组学等其他许多领域。深度学习通过反向传播算法发现大型数据集中的复杂结构,指示机器如何改变其内部参数,这些参数用于从上一层的表示计算每一层的表示。深度卷积网络在图像、视频、语音和音频处理方面取得了突破,而递归网络则在文本和语音等序列数据上取得了显著进展。
机器学习技术推动了现代社会的许多方面:从网络搜索到社交网络上的内容过滤,再到电子商务网站上的推荐功能,它也越来越多地应用于相机和智能手机等消费产品。机器学习系统被用于识别图像中的物体,将语音转录为文本,将新闻、帖子或产品与用户的兴趣进行匹配,并选择相关的搜索结果。这些应用程序越来越多地使用一种称为深度学习的技术。
传统的机器学习技术在处理原始形式的自然数据方面存在局限性。几十年来,构建模式识别或机器学习系统需要精心的工程设计和相当的领域专业知识,以设计特征提取器,将原始数据(如图像的像素值)转换为合适的内部表示或特征向量,学习子系统(通常是分类器)才能够从中检测或分类输入中的模式。
特征学习是一种方法集合,能够使机器直接处理原始数据并自动发现用于检测或分类的特征。深度学习方法是一种具有多层特征的特征学习技术,通过组合多个简单但非线性的模块,将每一层的特征(从原始输入开始)转化为更高、更抽象的特征。经过足够多的这种转换,可以学习非常复杂的函数。在分类任务中,更高层次的特征放大了输入中对分类有帮助的部分,同时抑制了不相关的变化。例如,图像通常由像素值数组组成,第一层的学习特征通常检测图像中特定方向和位置的边缘。第二层则通过检测边缘的特定排列来识别基本图案,不受边缘位置轻微变化的影响。第三层可能将这些基本图案组合成更大的结构,对应于熟悉物体的部件,而后续层则将这些部件组合成完整的对象。深度学习的关键在于,这些特征层不是由人类工程师设计的,而是通过通用学习程序从数据中自动学习得到的。
深度学习在解决人工智能领域多年未能攻克的难题上取得了重大突破。它在发现高维数据中的复杂结构方面表现优异,因此广泛应用于科学、商业和政府等多个领域。除了在图像识别和语音识别方面打破记录之外,深度学习在预测潜在药物分子的活性、分析粒子加速器数据、重建大脑回路,以及预测非编码DNA突变对基因表达和疾病的影响等方面,也超越了其他机器学习技术。更令人惊讶的是,深度学习在自然语言理解方面也取得了极具前景的成果,尤其是在主题分类、情感分析、问答和语言翻译等任务中。
我们认为,深度学习在不久的将来会取得更多的成功,因为它几乎不需要过多的人工干预,因此它可以充分利用高速的计算能力和庞大的数据量,从而更有效地训练模型并提高其性能。目前正在开发的新型学习算法和深度神经网络架构将进一步加速这一进展。
一、监督学习
最常见的机器学习形式,无论是否是深度学习,都是监督学习。想象我们想要构建一个系统,能够对图像进行分类,比如识别图像中包含房子、汽车、人物或宠物。首先,我们收集大量的房子、汽车、人和宠物的图像数据集,每张图像都有对应的标签。在训练过程中,机器会被展示一张图像,并输出一个分数向量,每个类别对应一个分数。我们希望目标类别的分数在所有类别中最高,但在训练之前这通常不会发生。我们计算一个目标函数,衡量输出分数与期望分数模式之间的误差(或距离)。机器随后会调整其内部的可调参数以减少这一误差。这些可调参数通常称为“权重”,它们是实数,可以看作定义机器输入-输出功能的“旋钮”。在一个典型的深度学习系统中,可能有数亿个这样的可调权重,以及数亿个带标签的样本用于训练机器。
为了正确调整权重向量,学习算法会计算一个梯度向量,该向量为每个权重指示当权重增加微小值时,误差会增加还是减少。然后,权重向量根据梯度向量的反方向进行调整。
目标函数在所有训练样本上取平均后,可以看作是权重值高维空间中的一种起伏的地形。负梯度向量表示在这个地形中最快下降的方向,使其逐渐靠近一个最小值,即平均输出误差较小的地方。
实际上,大多数从业者会使用一种叫做随机梯度下降(SGD)的算法。该方法的过程是:给定一些样本的输入向量,计算它们的输出和误差,然后计算这些样本的平均梯度,并据此调整权重。这个过程会针对训练集中许多小批量样本重复,直到目标函数的平均值不再下降。之所以称为‘随机’,是因为每个小批量样本集合只能对整体平均梯度进行一次近似估计,这个估计包含了随机噪声。与那些复杂的优化技术相比,这种简单的方法通常能在相对较短的时间内找到一组不错的权重。训练完成后,系统的性能会在一个称为测试集的不同样本集上进行评估,以此来测试模型的泛化能力——也就是它在未见过的新输入上给出合理答案的能力。
目前许多机器学习的实际应用中,都会在人工