基于Python实现深度学习算法及应用(人工智能实验)【100012176】资源-CSDN下载

共11个文件

png：8个

py：1个

md：1个

版权申诉

Python

深度学习

人工智能

课程设计

108 浏览量 2023-05-15 11:03:36 上传评论收藏 281KB ZIP 举报

在本实验"基于Python实现深度学习算法及应用(人工智能实验)【100012176】"中，我们将深入探讨深度学习这一现代计算机科学的重要领域，并通过实际操作来掌握其基本概念和应用。实验的目标是不仅理解深度学习的理论基础，还要能运用这些知识解决实际问题，例如图像识别。深度学习是机器学习的一个分支，它模拟人脑神经网络的工作方式，通过多层非线性变换对数据进行建模，从而实现诸如图像、语音和文本的自动识别。Python是深度学习领域最常用的编程语言，因为它拥有丰富的库和工具，如TensorFlow、Keras和PyTorch，这些使得构建和训练复杂的深度学习模型变得相对容易。我们要了解深度学习的基本原理。这包括神经网络的构造，其中包含输入层、隐藏层和输出层。权重和偏置的概念也是关键，它们在训练过程中不断调整以最小化损失函数，通常采用反向传播算法实现。此外，激活函数如Sigmoid、ReLU和Leaky ReLU在神经网络中起着重要作用，它们引入非线性，使网络有能力学习更复杂的数据模式。实验中会涉及图像识别，这是深度学习的一个经典应用。为了实现这个目标，我们可以使用卷积神经网络（CNNs）。CNNs特别适合处理图像数据，因为它们能捕捉到图像的空间特性。它们包含卷积层、池化层和全连接层等组件，这些组件有助于特征提取和分类。在实践中，我们可能需要准备数据集，例如MNIST手写数字识别数据集，对其进行预处理，然后使用预定义或自定义的CNN模型进行训练。在这个实验中，"ai_exp_04"可能是一个包含实验代码、数据集和说明文档的文件夹。它可能包含了实现图像识别任务的Python脚本，以及可能使用的库和框架的安装指南。在实际操作中，学生将需要运行代码、调整参数、观察模型性能并分析结果，以深入理解深度学习模型的工作机制。这个实验旨在提供一个动手实践的平台，帮助学生掌握深度学习的基本概念，体验从构建模型到实际应用的全过程。通过这个实验，参与者不仅可以了解Python和深度学习的基本工具，还能增强解决实际问题的能力，为未来的人工智能和数据分析工作打下坚实的基础。

资源推荐

资源详情

资源评论

收起资源包目录

100012176-基于Pthon实现深度学习算法及应用(人工智能实验).zip （11个子文件）

ai_exp_04

LICENSE 1KB

img

3.png 30KB

1.png 9KB

6.png 15KB

5.png 119KB

4.png 87KB

8.png 16KB

7.png 15KB

2.png 18KB

mnist.py 5KB

README.md 15KB

# 人工智能实验四：深度学习算法及应用 ## 一、实验目的了解深度学习的基本原理能够使用深度学习开源工具识别图像中的数字了解图像识别的基本原理 ## 二、实验要求解释深度学习原理；对实验性能进行分析；回答思考题； ## 三、实验的硬件、软件平台硬件：计算机软件：操作系统：WINDOWS 应用软件：PyTorch with CUDA, Python, matplotlib ## 四、实验内容与步骤安装开源深度学习工具设计并实现一个深度学习模型，它能够学习识别图像中的数字序列。然后使用数据训练它：你可以使用人工合成的数据（推荐），或直接使用现实数据。 ## 五、思考题深度算法参数的设置对算法性能的影响？ ## 实验步骤本次实验我使用的是MNIST数据集，使用PyTorch来搭建卷积神经网络实现图像识别。原理深度学习是在神经网络的基础上发展而来，其搭建的神经网络的隐层不止有一个，而是有多个。通过将多个线性函数进行组合，并且采用激活函数使其不再仅仅表示线性模型，而是可以做到无限逼近任意的模型，从而完成分类任务。其是在庞大的数据集和强大的计算能力的支持下，学习得到数据内部的关系，从而拟合出相应的能够表示其模型的函数。本次实验由于是要解决图像识别问题，所以我才用的是卷积神经网络。卷积神经网络是通过卷积层来对原本图像的特征进行提取，从而得到图像的特征图，再经过全连接神经网络进行学习，进行误差反向传播，更新权值。经过多次训练得到一个效果较好的分类器。卷积层 ![](img/1.png) 考虑一个简单的 4 x 4 的图像（上左图），其每个像素的值即当前像素的灰度值，使用一个 3 x 3 的卷积核（上右图）对其进行卷积操作：使用卷积核覆盖原图像的一个范围，将对应的点的值相乘，最后将这9个像素的值相加，作为一个新的值放入到新的图像中。这一个新的图像就被称为特征图。此步骤之后，移动卷积核，对下一个 3 x 3 的方阵进行同样的操作，直到全部完毕。得到如下的特征图： ![](img/2.png) 卷积核每次移动的范围称为步长，上述的情况中步长为1。但是对于这种卷积方式，很显然，位于图像边缘的一些点的特征会被丢弃，所以，可以对图像周围用0进行填充： ![](img/3.png) 填充的范围被称作Padding，上图的Padding = 0。对于一个图像，可以经过不止一个卷积核的卷积，得到多个特征图，特征图的个数与卷积核的个数相等。记输入图像为 X * X，卷积核为 C * C，步长为 S，Padding为 P ，那么，得到的特征图的尺寸则为N = (W-F+2P)/S + 1当然，上述的卷积核仅仅是一个最简单的卷积核，除此之外，还有扩张卷积：包含一个叫做扩张率的参数，定义了卷积核内参数间的行（列）间隔数，或者又如转置卷积。对于要处理的二维图像而言，其不仅有长和宽两个变量，还有一个称为“通道”的变量，如上述的例子，输入的图像可表示为(4, 4, 1)，表示长和宽都是4，有1个通道，经过N个上述的 3 x 3 卷积核后，其可以变成(2, 2, N)，即有了N个通道。在这里，可以把其看作是N个二维的图像组合而成的一个三维图像。对于多通道的图像，假定其有N个通道，经过一个 3 x 3 的卷积核，那么这个卷积核也应该为(3, 3, N)，使用这一个卷积核对每一个通道相同的位置进行卷积，得到了N个值，将这N个值求和，作为输出图像中的一个值。所以，得到的通道的数目只与卷积核的个数有关。池化层从上面卷积层可以看到，我们的目的是对一个图像进行特征提取，最终得到了一个N通道的图像，但是，如果卷积核的数量太多，那么得到的特征图数量也是非常多。这时就需要池化层来降低卷积层输出的特征维度，同时可以防止过拟合现象。由于图像具有一种“静态性”的属性，也就是在一个图像区域有用的特征极有可能在另一个区域同样有用，所以通过池化层可以来降低图像的维度。这里只介绍我使用的一般池化的方法。一般池化包括平均池化和最大池化两种。平均池化即计算图像区域的平均值作为该区域池化后的值；最大池化则是选图像区域的最大值作为该区域池化后的值。如果选取的池化层为 2 x 2，那么对于一个 4 x 4 的图像能够得到如下的结果： ![](img/4.png) 将一个 4 x 4 的图像降低成了 2 x 2 的图像。其中对应的单元的值，取决于池化的方法。值得注意的是，池化层不包含需要学习的参数。学习最后是学习部分。CNN的学习也是和神经网络一样，先经过前向传播，得到当前的预测值，再计算误差，将误差反向传播，更新全连接层的权值和卷积核的参数。这里存在一个问题，如果卷积核的参数都不同，那么需要更新的参数数量会非常多。为了解决这个问题，采用了参数共享的机制，即对于每一个卷积核，其对每个通道而言权值都是相同的。这里卷积层的反向传播推导过于复杂，所以我也就不再罗列公式了。实验代码本次实验通过PyTorch进行CNN的搭建以及数据的处理。数据读取采用了MNIST数据集： ``` transform = transforms.Compose( [transforms.ToTensor(), transforms.Normalize((0.1307, ), (0.3081, ))]) # 读入 data_train = datasets.MNIST(root="./data", transform=transform, train=True, download=True) data_test = datasets.MNIST(root="./data", transform=transform, train=False) # 按 batch = 128 加载 data_loader_train = torch.utils.data.DataLoader(dataset=data_train, batch_size=128, shuffle=True) data_loader_test = torch.utils.data.DataLoader(dataset=data_test, batch_size=128, shuffle=True) ``` 将数据读入后转变为张量，对其进行正则化，正则化的均值和方差的选择则是依据MNIST的标准均值方差。加载之后使用dataloader将其读入，每128个图像作为一个batch加载，使用shuffle将其随机打乱。 ##### CNN的搭建 ``` def __init__(self) -> None: super(Model, self).__init__() self.conv1 = nn.Conv2d(1, 8, kernel_size=3, stride=1) # 卷积层1 self.conv2 = nn.Conv2d(8, 32, kernel_size=4, stride=1) # 卷积层2 self.hidden1 = nn.Linear(5 * 5 * 32, 150) # 隐层1 输入5 * 5 * 32（之后会进行解释） self.hidden2 = nn.Linear(150, 40) # 隐层2 输入150 输出40 self.hidden3 = nn.Linear(40, 10) # 输出层 10分类输出为10 ``` 这里采用了两层卷积层进行特征的提取，第一个卷积层的kernel选择为 3 x 3，步长为1，输出为8通道，对于其输入，由于图像转换为了灰度值为非RGB值，所以输入的图像为1通道，如果是RGB值，则要有3通道。第二个卷积层的kernel则是 4 x 4，步长为1，输出32通道，输入则是8通道。 ``` def forward(self, x): # 28 * 28 x = self.conv1(x) # 26 * 26 * 8 x = F.relu(x) x = F.max_pool2d(x, 2) # 13 * 13 * 8 x = self.conv2(x) # 10 * 10 * 32 x = F.relu(x) x = F.max_pool2d(x, 2) # 5 * 5 * 32 x = x.view(-1, 5 * 5 * 32) # 展开变成一维的张量 # 全连接神经网络 x = self.hidden1(x

评论收藏

内容反馈

版权申诉