Keras-io项目指南：自定义Model.fit()训练过程详解

原创于 2025-06-19 09:24:19 发布 · 425 阅读

CC 4.0 BY-SA版权

Keras-io项目指南：自定义Model.fit()训练过程详解

概述

在深度学习实践中，Keras的fit()方法提供了简单高效的训练接口，但有时我们需要更灵活地控制训练过程。本文将深入探讨如何通过继承keras.Model类并重写训练步骤方法，来自定义训练过程，同时保留fit()方法的所有便利功能。

为什么需要自定义训练步骤

Keras遵循渐进式复杂性披露的设计原则，这意味着：

初学者可以使用简单的fit()快速上手
高级用户可以逐步深入底层细节
在任何阶段都能获得相应级别的便利性

当标准fit()行为不完全符合需求时，我们可以通过重写train_step()方法来自定义训练逻辑，而无需放弃回调函数、分布式训练等高级功能。

基础实现方法

简单示例

最基本的自定义训练步骤实现包含以下关键点：

class CustomModel(keras.Model):
    def train_step(self, data):
        x, y = data
        
        with tf.GradientTape() as tape:
            y_pred = self(x, training=True)  # 前向传播
            loss = self.compute_loss(y=y, y_pred=y_pred)  # 计算损失
        
        # 计算梯度并更新权重
        gradients = tape.gradient(loss, self.trainable_variables)
        self.optimizer.apply_gradients(zip(gradients, self.trainable_variables))
        
        # 更新指标
        for metric in self.metrics:
            if metric.name == "loss":
                metric.update_state(loss)
            else:
                metric.update_state(y, y_pred)
        
        return {m.name: m.result() for m in self.metrics}

这个实现中：

解包输入数据
使用GradientTape记录前向传播过程
计算损失和梯度
更新模型权重
更新评估指标
返回指标结果字典

数据输入格式

data参数的结构取决于fit()的调用方式：

使用Numpy数组：data是(x, y)元组
使用Dataset对象：data是Dataset每次迭代的产出

进阶实现技巧

手动管理损失和指标

我们可以完全不依赖compile()方法配置的损失函数和指标，完全手动管理：

class CustomModel(keras.Model):
    def __init__(self, *args, **kwargs):
        super().__init__(*args, **kwargs)
        self.loss_tracker = keras.metrics.Mean(name="loss")
        self.mae_metric = keras.metrics.MeanAbsoluteError(name="mae")
    
    def train_step(self, data):
        x, y = data
        
        # 自定义前向传播和损失计算
        y_pred = self(x, training=True)
        loss = keras.losses.mean_squared_error(y, y_pred)
        
        # 梯度计算和权重更新
        gradients = tape.gradient(loss, self.trainable_variables)
        self.optimizer.apply_gradients(zip(gradients, self.trainable_variables))
        
        # 手动更新指标
        self.loss_tracker.update_state(loss)
        self.mae_metric.update_state(y, y_pred)
        
        return {"loss": self.loss_tracker.result(), "mae": self.mae_metric.result()}
    
    @property
    def metrics(self):
        return [self.loss_tracker, self.mae_metric]

关键点：

在__init__中初始化自定义指标
实现metrics属性以便自动重置指标状态
完全手动控制损失计算和指标更新

支持样本权重

在实际应用中，我们经常需要对不同样本赋予不同权重：

class CustomModel(keras.Model):
    def train_step(self, data):
        if len(data) == 3:
            x, y, sample_weight = data
        else:
            sample_weight = None
            x, y = data
        
        # 计算带权重的损失
        loss = self.compute_loss(
            y=y,
            y_pred=y_pred,
            sample_weight=sample_weight
        )
        
        # 更新带权重的指标
        for metric in self.metrics:
            if metric.name != "loss":
                metric.update_state(y, y_pred, sample_weight=sample_weight)

自定义评估步骤

类似地，我们可以通过重写test_step来自定义评估过程：

class CustomModel(keras.Model):
    def test_step(self, data):
        x, y = data
        y_pred = self(x, training=False)
        self.compute_loss(y=y, y_pred=y_pred)
        
        for metric in self.metrics:
            if metric.name != "loss":
                metric.update_state(y, y_pred)
        
        return {m.name: m.result() for m in self.metrics}

实战案例：完整GAN实现

下面展示一个完整的生成对抗网络(GAN)实现，演示如何利用自定义训练步骤实现复杂训练逻辑：

class GAN(keras.Model):
    def __init__(self, discriminator, generator, latent_dim):
        super().__init__()
        self.discriminator = discriminator
        self.generator = generator
        self.latent_dim = latent_dim
        self.d_loss_tracker = keras.metrics.Mean(name="d_loss")
        self.g_loss_tracker = keras.metrics.Mean(name="g_loss")
    
    def compile(self, d_optimizer, g_optimizer, loss_fn):
        super().compile()
        self.d_optimizer = d_optimizer
        self.g_optimizer = g_optimizer
        self.loss_fn = loss_fn
    
    def train_step(self, real_images):
        # 生成随机潜在向量
        batch_size = tf.shape(real_images)[0]
        random_latent_vectors = tf.random.normal(shape=(batch_size, self.latent_dim))
        
        # 生成假图像
        generated_images = self.generator(random_latent_vectors)
        
        # 组合真假图像
        combined_images = tf.concat([generated_images, real_images], axis=0)
        
        # 创建标签并添加噪声(重要技巧)
        labels = tf.concat([tf.ones((batch_size, 1)), tf.zeros((batch_size, 1))], axis=0)
        labels += 0.05 * tf.random.uniform(tf.shape(labels))
        
        # 训练判别器
        with tf.GradientTape() as tape:
            predictions = self.discriminator(combined_images)
            d_loss = self.loss_fn(labels, predictions)
        grads = tape.gradient(d_loss, self.discriminator.trainable_weights)
        self.d_optimizer.apply_gradients(zip(grads, self.discriminator.trainable_weights))
        
        # 训练生成器
        random_latent_vectors = tf.random.normal(shape=(batch_size, self.latent_dim))
        misleading_labels = tf.zeros((batch_size, 1))
        
        with tf.GradientTape() as tape:
            predictions = self.discriminator(self.generator(random_latent_vectors))
            g_loss = self.loss_fn(misleading_labels, predictions)
        grads = tape.gradient(g_loss, self.generator.trainable_weights)
        self.g_optimizer.apply_gradients(zip(grads, self.generator.trainable_weights))
        
        # 更新指标
        self.d_loss_tracker.update_state(d_loss)
        self.g_loss_tracker.update_state(g_loss)
        return {"d_loss": self.d_loss_tracker.result(), "g_loss": self.g_loss_tracker.result()}

这个GAN实现展示了：