【机器学习实战】图像识别：使用mnist数据集训练一个图像分类模型

原创于 2025-05-14 18:43:46 发布 · 1.9k 阅读

20 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #分类 #人工智能

MNIST（Modified National Institute of Standards and Technology）是机器学习领域的经典手写数字图像数据集，广泛用于图像分类任务的基准测试。

MNIST 数据集

基本信息

数据规模：
- 训练集：60,000 张图像
- 测试集：10,000 张图像
图像规格：
- 尺寸：28×28 像素（灰度图，单通道）
- 像素值范围：0（黑色）到 255（白色）
标签：0-9 的数字（共 10 个类别）

数据结构

MNIST 数据集通常以以下形式加载：

训练数据：
- x_train：形状为 (60000, 28, 28) 的 NumPy 数组（图像像素）
- y_train：形状为 (60000,) 的 NumPy 数组（对应标签）
测试数据：
- x_test：形状为 (10000, 28, 28) 的 NumPy 数组
- y_test：形状为 (10000,) 的 NumPy 数组

加载方式

1. 使用 TensorFlow/Keras

from tensorflow.keras.datasets import mnist

(x_train, y_train), (x_test, y_test) = mnist.load_data()

2. 使用 PyTorch

from torchvision import datasets, transforms

# 定义数据预处理
transform = transforms.Compose([
    transforms.ToTensor(),
    transforms.Normalize((0.1307,), (0.3081,))  # MNIST数据集的均值和标准差
])

train_dataset = datasets.MNIST('data', train=True, download=True, transform=transform)
test_dataset = datasets.MNIST('data', train=False, transform=transform)

数据预处理

在训练模型前，通常需要对数据进行预处理：

归一化：将像素值从 [0, 255] 缩放到 [0, 1] 或 [-1, 1]。
```
x_train = x_train / 255.0
x_test = x_test / 255.0
```
调整形状：对于 CNN 模型，需增加通道维度（例如从 (28, 28) 变为 (28, 28, 1)）。
```
x_train = x_train.reshape(-1, 28, 28, 1)  # TensorFlow格式
```

标签编码：将整数标签转为 one-hot 编码（适用于某些模型）。

from tensorflow.keras.utils import to_categorical
y_train = to_categorical(y_train, 10)

模型训练示例

以下是使用 TensorFlow 构建简单 CNN 模型的示例：

import tensorflow as tf
from tensorflow.keras import layers, models, datasets
import matplotlib.pyplot as plt

# 加载MNIST数据集
(x_train, y_train), (x_test, y_test) = datasets.mnist.load_data()

# 数据预处理
x_train = x_train.reshape(-1, 28, 28, 1).astype('float32') / 255.0
x_test = x_test.reshape(-1, 28, 28, 1).astype('float32') / 255.0

# 构建CNN模型
model = models.Sequential([
    # 第一个卷积块
    layers.Conv2D(32, (3,3), activation='relu', input_shape=(28,28,1)),
    layers.MaxPooling2D((2,2)),
    
    # 第二个卷积块
    layers.Conv2D(64, (3,3), activation='relu'),
    layers.MaxPooling2D((2,2)),
    
    # 全连接分类器
    layers.Flatten(),
    layers.Dense(64, activation='relu'),
    layers.Dropout(0.5),  # 防止过拟合
    layers.Dense(10, activation='softmax')  # 10个输出类别
])

# 编译模型
model.compile(
    optimizer='adam',
    loss='sparse_categorical_crossentropy',  # 因为标签是整数
    metrics=['accuracy']
)

# 模型架构摘要
model.summary()

# 训练模型
history = model.fit(
    x_train, y_train,
    epochs=5,
    batch_size=64,
    validation_split=0.1  # 使用10%的训练数据作为验证集
)

# 评估模型
test_loss, test_acc = model.evaluate(x_test, y_test)
print(f"测试准确率: {test_acc:.4f}")

# 保存模型
model.save('mnist_cnn_model.h5')

# 绘制训练历史
plt.figure(figsize=(12, 4))
# 第一个子图：训练和验证准确率
plt.subplot(1, 2, 1)
plt.plot(history.history['accuracy'], label='训练准确率')
plt.plot(history.history['val_accuracy'], label='验证准确率')
plt.title('训练和验证准确率')  # 子图标题
plt.xlabel('训练轮次')        # X轴标签
plt.ylabel('准确率')          # Y轴标签
plt.legend()

# 第二个子图：训练和验证损失
plt.subplot(1, 2, 2)
plt.plot(history.history['loss'], label='训练损失')
plt.plot(history.history['val_loss'], label='验证损失')
plt.title('训练和验证损失')   # 子图标题
plt.xlabel('训练轮次')        # X轴标签
plt.ylabel('损失值')          # Y轴标签
plt.legend()

应用场景

数字识别系统：MNIST 数据集最直接的应用就是在数字识别领域。它可以用于训练模型，识别各种场景下的手写数字，如邮政编码、支票号码、统计报表中的数字等，帮助实现自动化的数据录入和处理，提高工作效率，减少人工错误。
机器学习算法研究与教学：由于 MNIST 数据集具有标准的格式和明确的分类标签，且规模适中，它常被用于机器学习算法的研究和教学中。研究人员可以利用 MNIST 数据集来验证新的算法或模型结构的有效性，比较不同算法在相同数据集上的性能表现，学生也可以通过对 MNIST 数据集进行实验，更好地理解和掌握机器学习的基本原理和方法。
图像预处理技术研究：在处理 MNIST 数据集的过程中，研究人员可以探索和开发各种图像预处理技术，如归一化、降噪、数据增强等。这些技术可以提高图像的质量，增强模型对不同图像变化的鲁棒性，并且这些技术也可以推广到其他图像识别任务中。
模型评估与比较基准：MNIST 数据集作为一个经典的图像数据集，被广泛用作评估和比较不同图像分类模型性能的基准。无论是传统的机器学习模型还是深度学习模型，在发布新的研究成果时，通常都会在 MNIST 数据集上进行实验，并报告其准确率等性能指标，以便与其他模型进行公平的比较。
计算机视觉系统的基础模块：基于 MNIST 数据集训练的数字识别模型可以作为更复杂的计算机视觉系统中的一个基础模块。例如，在一个包含数字识别功能的文档分析系统或自动驾驶场景中的数字标识识别系统中，基于 MNIST 数据集训练得到的模型可以经过微调后应用于实际场景，识别出相关的数字信息，为后续的决策和处理提供依据。

扩展资源

MNIST 官网：http://yann.lecun.com/exdb/mnist/
Kaggle 竞赛：基于 MNIST 的变种竞赛（如 Digit Recognizer）
相关数据集：
- Fashion-MNIST：服装图像分类数据集（相同规格，10 个类别）
- EMNIST：扩展版 MNIST，包含字母和数字