Tensorflow 中的损失函数 —— loss 专题汇总

最新推荐文章于 2025-06-17 09:32:53 发布

WitsMakeMen

最新推荐文章于 2025-06-17 09:32:53 发布

阅读量3.7k

点赞数 20

CC 4.0 BY-SA版权

文章标签： tensorflow neo4j 人工智能

本文链接：https://blog.csdn.net/WitsMakeMen/article/details/135832230

回归和分类是监督学习中的两个大类。自学过程中，阅读别人代码时经常看到不同种类的损失函数，到底 Tensorflow 中有多少自带的损失函数呢，什么情况下使用什么样的损失函数？这次就来汇总介绍一下。

一、处理回归问题

1. tf.losses.mean_squared_error：均方根误差（MSE） —— 回归问题中最常用的损失函数

优点是便于梯度下降，误差大时下降快，误差小时下降慢，有利于函数收敛。
缺点是受明显偏离正常范围的离群样本的影响较大

# Tensorflow中集成的函数
mse = tf.losses.mean_squared_error(y_true, y_pred)
# 利用Tensorflow基础函数手工实现
mse = tf.reduce_mean(tf.square(y_true -  y_pred))

2. tf.losses.absolute_difference：平均绝对误差（MAE） —— 想格外增强对离群样本的健壮性时使用

优点是其克服了 MSE 的缺点，受偏离正常范围的离群样本影响较小。
缺点是收敛速度比 MSE 慢，因为当误差大或小时其都保持同等速度下降，而且在某一点处还不可导，计算机求导比较困难。

maes = tf.losses.absolute_difference(y_true, y_pred)
maes_loss = tf.reduce_sum(maes)

3. tf.losses.huber_loss：Huber loss —— 集合 MSE 和 MAE 的优点，但是需要手动调超参数

核心思想是，检测真实值（y_true）和预测值（

最低0.47元/天解锁文章

200万优质内容无限畅学

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

WitsMakeMen

关注关注

20
点赞
踩
28

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
打赏
打赏
打赏举报

举报

损失函数 (Loss Function)

AI天才研究院

07-08

924

损失函数 (Loss Function) 作者：禅与计算机程序设计艺术 / Zen and the Art of Computer Programming / TextGenWebUILLM 损失函数 (Loss Function)

TensorFlow损失函数

吴建明wujianming_110117

01-30

460

TensorFlow损失函数 正如前面所讨论的，在回归中定义了损失函数或目标函数，其目的是找到使损失最小化的系数。本文将介绍如何在 TensorFlow 中定义损失函数，并根据问题选择合适的损失函数。声明一个损失函数需要将系数定义为变量，将数据集定义为占位符。可以有一个常学习率或变化的学习率和正则化常数。在下面的代码中，设 m 是样本数量，n 是特征数量，P 是类别数量。这里应该在代码之前定义这些全局参数：在标准线性回归的情况下，只有一个输入变量和一个输出变量：在多元线性回归的情况下，输入变量不

1 条评论您还未登录，请先登录后发表或查看评论

【Tensorflow】tensorflow中的损失函数介绍

qq_41167073的博客

02-16

2788

tensorflow中的损失函数介绍本文参考借鉴了：损失函数loss大大总结，地址：https://blog.csdn.net/qq_14845119/article/details/80787753 并参考官方文档整理而成。一. 分类损失函数 1.二分类交叉熵损失sigmoid_cross_entropy： Aliases: tf.losses.sigmoid_cross_entropy(...

Tensorflow中的损失函数loss汇总

qionggaobi9328的博客

08-11

6583

回归和分类是监督学习中的两个大类。自学过程中，阅读别人代码时经常看到不同种类的损失函数，到底 Tensorflow 中有多少自带的损失函数呢，什么情况下使用什么样的损失函数？这次就来汇总介绍一下。一、处理回归问题 1.tf.losses.mean_squared_error：均方根误差（MSE） —— 回归问题中最常用的损失函数 优点是便于梯度下降，误差大时下降快，误差小时下降慢，有利于函数收敛...

tensorflow框架如何自定义损失函数

热门推荐

hongxue8888的博客

08-14

3万+

神经网络模型的效果及优化的目标是通过损失函数来定义的。1、经典损失函数分类问题和回归问题是监督学习的两大种类。分类问题常用方法：交叉熵（cross_entropy），它描述了两个概率分布之间的距离，当交叉熵越小说明二者之间越接近。它是分类问题中使用比较广的一种损失函数。给定两个概率分布p和q，通过q来表示p的交叉熵为： H(p,q)=−∑xp(x)logq(x)H(p,q)=-\sum_x p

tensorflow 的损失函数

qq_46006468的博客

08-12

968

一、均方误差一般地，在样本量一定时，评价一个点估计的好坏标准使用的指标总是点估计ｘ与参数真值ｘ＇的距离的函数，最常用的函数是距离的平方，由于估计量具有随机性，可以对该函数求期望，这就是下式给出的均方误差：以下例程中拟定 y=x1+x2 为目标函数，随机初始化参数并加入噪声进行迭代，采用均方误差的损失函数进行梯度下降，不断逼近目标。代码： SEED = 23455 rdm = np.random.RandomState(see...

tensorflow笔记（三）——损失函数

蚂蚁搬家

07-23

1549

一、概述机器学习主要面对两类问题：回归和分类。不过一个问题属于分类还是回归的界定却并不清晰。比如点击率预估输入样本的Label是0-曝光和1-点击，输出的是用户点击的概率，是一个连续值，你说点击率是回归问题还是分类问题？从目标来看输出一个率值而非类别应该算回归，但从输入来看是标签离散的，应该算是分类。本质上这两类问题是一体两面的，分类模型可将回归模型的输出离散化，回归模型也可将分类模型的输出连续化，主要看任务目标是什么。分类和回归最大的不同可能在于对于损失函数的选择上。主要区别在于： 损失函数的一般表示

TensorFlow2损失函数大全

bigcindy的博客

07-04

5239

本文汇总了TensorFlow2中的所有损失函数： 1. L1范数损失计算预测值与标签值之间的绝对误差的平均值： tf.keras.losses.MAE(y_true, y_pred) 参数： y_true 标签值 y_pred 预测值返回值：绝对误差的平均值。别名： tf.keras.losses.mae, tf.keras.losses.mean_absolute_error, tf.keras.metrics.MAE, tf.keras.metrics

TensorFlow自定义损失函数

修炼之路

10-27

2万+

TensorFlow提供了许多的损失函数，在训练模型中经常使用的损失函数有交叉熵、平方差。TensorFlow除了提供这些损失函数之外，还给开发者提供了一种自定义损失函数的方法。让开发者，可以根据实际项目的需要来自定义损失函数，让我们可以更好的训练出满足开发者需要的模型。一、为什么要自定义损失函数 在某些开发场景下，系统提供的损失函数已经无法满足我们的要求。如，我们需要为一个奶茶店提供一个原

TensorFlow中的损失函数

Xiaozhu的博客

11-20

564

分类问题和回归问题是监督学习的两大种类，本文将分别介绍分类问题和回归问题中使用到的经典损失函数以及根据实际情况所自定义的损失函数。同时注意损失函数定义的是损失，所以要将利润最大化，定义损失函数应该刻画成本或者代价。在实际情况中，可以根据具体问题自定义损失函数。一、经典损失函数 1、分类问题 1.1、交叉熵简介机器学习中，在解决二分类的情况时，可以通过设置一个阈值，大于阈值的认为是一类，小于阈...

TensorFlow 损失函数

QiangLi的专栏

07-13

956

介绍几个常用的损失函数 参考链接：神经网络Loss损失函数总结 TensorFlow四种Cross Entropy算法实现和应用 softamx cross entropy loss softmax 交叉熵损失函数是我们常用的一种损失函数。 Softmax本身的算法很简单，就是把所有值用e的n次方计算出来，求和后算每个值占的比率，保证总和为1，一般我们可以认为Softmax...

Tensorflow 损失函数

qwexdl的博客

04-06

952

一、经典损失函数 1.1 分类问题 1.1.1 cross entropy 刻画概率之间的距离. 1.1.1.1 自实现使用tf.clip_by_value粗略估计。 cross_entropy = -tf.reduce_mean( y * tf.log(tf.clip_by_value(predict, 1e-10, 1.0)) ) *表示矩阵点乘 1.1.1.2 tf.nn.softmax_cross_entropy_with_logits_v2 tf.nn.softmax_cros

tensorflow损失函数

qq_32172681的博客

07-06

343

1、softmax交叉熵损失函数 tf.nn.softmax_cross_entropy_with_logits(logits= Network.out,labels= Labels_onehot) 参数为网络最后一层的output和经过ont-hot编码的lables数据，softmax把一个k维的真实值向量，映射成一个每个值都是0-1区间的k维向量，可以取权重最大的一维进行多分类的任务。...

深层神经网络之二：损失函数定义

xuesuoziluoshu的博客

01-13

1022

1.经典损失函数 监督学习所要解决的两大类问题为分类问题和回归问题。针对分类问题和回归问题有各自不同的经典损失函数。通过神经网络解决多分类问题最常用的方法是设置n个输出节点，其中n为类别的个数。对于每一个样例，神经网络可以得到一个n维数组作为输出结果。数组中每个维度（也就是每一个输出节点）对应一个类别。在理想情况下，如果一个样本属于类别k，那么这个类别所对应的输出节点的输出值应该为1，而其他节点...

【AI实战】快速掌握TensorFlow（四）：损失函数

weixin_34088598的博客

09-02

809

2019独角兽企业重金招聘Python工程师标准>>> ...

Batch Loss

06-10

<think>嗯，用户这次明确询问的是BatchLoss的概念和计算方法，看来ta正在学习深度学习训练过程中的基础指标。虽然上次讨论的是Epoch层面的损失，但这次更聚焦于微观的Batch级别。注意到用户引用的参考材料似乎有些错位——引用[1]提到的是神经网络学习规则与成本函数的关系，引用[2]关于随机森林，引用[3]涉及优化算法，但用户真正需要的应该是BatchLoss本身的定义。这说明用户可能是在查阅资料时收集了各种片段，但核心需求很明确：理解BatchLoss技术细节。结合专业经验，BatchLoss计算需要强调三个关键点：基础定义、计算公式的数学表达、以及代码实现示例。特别要区分BatchLoss和EpochLoss的差异，避免混淆。在解释公式$L_b=\frac{1}{n}\sum_{i=1}^{n}L(y_i,\hat{y}_i)$时，需要明确每个变量的含义：$n$是本批次的样本数而非总样本量，这个细节初学者常弄错。用户可能是刚接触深度学习实践的开发者，所以准备用PyTorch实现作为实例会更直观。考虑到上次对话提过Epoch，会在比较维度加入与Epoch的对比表，这样知识衔接更自然。另外损失函数类型需要举例说明——交叉熵和MSE最常用，但不宜展开过深以免偏离主题。最后生成的问题要聚焦BatchLoss的衍生知识：学习率影响、批次划分策略都是紧密相关的实践要点。用户上次对优化技术很关注（引用[3]提到SVRG等算法），但这次问题更基础，推测ta在系统构建知识体系。</think> 好的，我们来详细解析机器学习/深度学习中**Batch Loss（批次损失）** 的概念和计算方法。 ### 一、Batch Loss 的核心概念 1. **定义**： * Batch Loss 是指**模型在单个训练批次（Batch）的所有样本上计算出的损失函数值的平均数**。 * 它是模型在当前参数 $\theta$ 下，对该特定一小部分数据（即一个Batch）预测效果的量化衡量。 2. **作用**： * **参数更新的核心依据**：深度学习模型通常使用基于梯度的优化算法（如 SGD, Adam）。优化器计算的就是 Batch Loss $L_b(\theta)$ 相对于模型参数 $\theta$ 的梯度 $\nabla_\theta L_b(\theta)$。梯度方向指示了如何调整参数以使该 Batch 上的损失减少，然后参数根据此梯度进行更新[^1]。 * **模型训练过程的微观监控**：观察每个 Batch 的损失变化是监控模型是否在有效学习的最直接方式。理想情况下，随着训练的进行，每个 Batch 的损失平均值（Avg Train Loss）应呈现下降趋势。 * **与 Epoch Loss 的关系**： * 一个 **Epoch（训练轮次）** 表示模型完整遍历一次整个训练数据集。 * 一个 Epoch 包含多个 Batch。 * **Epoch Loss（或 Avg Train Loss）** 是一个 Epoch 内**所有 Batch Loss 的平均值**，反映了模型在一个完整数据周期上的整体表现。 ### 二、Batch Loss 的计算方法 1. **基本公式**：假设一个 Batch 包含 $n$ 个样本。模型对第 $i$ 个样本的预测为 $\hat{y}_i$，其真实标签为 $y_i$。选定的损失函数为 $L(y_i, \hat{y}_i)$ (例如交叉熵、均方误差等)。则该 Batch 的损失 $L_b$ 计算为： $$ L_b = \frac{1}{n} \sum_{i=1}^{n} L(y_i, \hat{y}_i) $$ * $L(y_i, \hat{y}_i)$: 第 $i$ 个样本的个体损失值。 * $\sum_{i=1}^{n}$: 将 Batch 内所有样本的个体损失值相加。 * $\frac{1}{n}$: 计算平均值，得到 Batch Loss。 2. **常见损失函数举例**： * **均方误差（Mean Squared Error, MSE）** (常用于回归问题)： $$ L(y_i, \hat{y}_i) = (y_i - \hat{y}_i)^2 $$ Batch Loss: $$ L_b^{\text{MSE}} = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 $$ * **交叉熵损失（Cross-Entropy Loss）** (常用于分类问题)： * 对于二分类（假设使用 Sigmoid 输出）： $$ L(y_i, \hat{y}_i) = - \big[y_i \log(\hat{y}_i) + (1 - y_i) \log(1 - \hat{y}_i)\big] $$ * 对于多分类（假设使用 Softmax 输出）： $$ L(y_i, \hat{y}_i) = - \sum_{c=1}^{C} y_{i, c} \log(\hat{y}_{i, c}) $$ 其中 $C$ 是类别总数，$y_{i, c}$ 是第 $i$ 个样本在第 $c$ 个类别上的真实标签（one-hot 向量形式），$\hat{y}_{i, c}$ 是模型预测该样本属于类别 $c$ 的概率。 Batch Loss: $$ L_b^{\text{CE}} = \frac{1}{n} \sum_{i=1}^{n} L(y_i, \hat{y}_i) $$ ### 三、Batch Loss 在训练循环中的位置（PyTorch 伪代码示例） ```python model = ... # 定义模型 optimizer = ... # 定义优化器 (如 optim.SGD, optim.Adam) criterion = ... # 定义损失函数 (如 nn.MSELoss(), nn.CrossEntropyLoss()) for epoch in range(num_epochs): # 遍历每个Epoch for inputs, labels in train_loader: # 遍历每个Batch (由 DataLoader 提供) optimizer.zero_grad() # 清零上一Batch的累积梯度 outputs = model(inputs) # 前向传播：模型在当前Batch上做预测 loss = criterion(outputs, labels) # 计算当前Batch Loss [^1] loss.backward() # 反向传播：计算Batch Loss相对于模型参数的梯度 optimizer.step() # 根据梯度更新模型参数 current_batch_loss = loss.item() # 获取当前Batch Loss数值用于记录 # ... (通常在此处记录或累积current_batch_loss) ``` * 关键行 `loss = criterion(outputs, labels)` 计算的就是 **Batch Loss**。PyTorch (及类似框架如 TensorFlow, Keras) 中的损失函数在设计上，默认对输入的整个 Batch 计算平均损失[^1]。 ### 四、Batch Loss 的特点与影响因素 1. **噪声性**： * 由于 Batch Loss 只基于一部分数据计算，它相比 Epoch Loss 具有更大的**随机性**或**噪声**。即使整体学习趋势良好，单个 Batch 的损失也可能暂时上升或波动。 * 这是因为单个 Batch 的数据分布可能不能完美代表整个训练集（尤其是 Batch Size 较小时）。 2. **Batch Size 的影响**： * **小 Batch Size** (e.g., 32, 64)： * Batch Loss 噪声更大。 * 参数更新频率更高（在一个Epoch内）。 * 可能有助于模型找到更广的极小值点（对泛化有利）。 * **大 Batch Size** (e.g., 1024, 整个训练集 - Full Batch)： * Batch Loss 更接近 Epoch Loss / 总体损失，噪声更小。 * 梯度计算更精确（方向更接近整个数据集的梯度）。 * 每个Epoch的参数更新次数更少。 * 计算每个Batch所需内存/计算资源更多。 | 特性 | 小 Batch Size | 大 Batch Size | | :--------------- | :------------------------------ | :------------------------------ | | **Loss 噪声** | 高 | 低 | | **更新频率/轮次** | 高 | 低 | | **梯度方向估计** | 随机性大，可能引入正则化效果 | 更精确，近似全集梯度 | | **内存需求** | 低 | 高 | | **稳定性** | 较低 (波动大) | 较高 (波动小) | ### 五、与 Epoch Loss 的对比总结 | 特性 | Batch Loss | Epoch Loss (Avg Train Loss) | | :----------- | :----------------------------------- | :-------------------------------------- | | **计算基础** | 单个 Batch 上的损失平均值 | 一个 Epoch 内所有 Batch Loss 的平均值 | | **噪声程度** | 高 (受单个 Batch 数据分布影响大) | 低 (多个 Batch 平均，平滑了噪声) | | **作用** | **参数更新**的直接依据 | **训练过程宏观监控**的主要指标 | | **主要用途** | 梯度计算，优化器更新参数 | 评估一轮训练整体效果，监控收敛，早停 | | **更新频率** | 每个 Batch 后计算并用于更新 | 每个 Epoch 结束时计算 | | **可视化** | 常以高密度点线图或滑动平均形式观察 | 常以单个点（每个Epoch一个点）连线形式 | **理解关键**：深度学习的训练过程本质上是通过在**连续不断的批次（Batch）** 上计算损失（Batch Loss）、求梯度并更新参数来驱动的。Epoch Loss 是为了宏观监控整个数据集上的学习趋势和收敛情况而对所有批次损失的汇总。 --- **