【特征融合】卷积神经网络中的特征融合方式有哪些？？让我们一起看看！

985小水博一枚呀

已于 2025-03-17 14:32:32 修改

阅读量5k

点赞数 39

CC 4.0 BY-SA版权

分类专栏：机器学习-深度学习-大模型笔记实录文章标签： cnn 人工智能神经网络 python numpy tensorflow 深度学习

于 2024-09-12 11:41:39 首次发布

本文链接：https://blog.csdn.net/gaoxiaoxiao1209/article/details/142170262

机器学习-深度学习-大模型笔记实录专栏收录该内容

132 篇文章 ¥39.90 ¥99.00

订阅专栏

超级会员免费看

【特征融合】卷积神经网络中的特征融合方式总结与探索…

前言：

在深度学习中，特征融合（Feature Fusion）是一种将不同特征图或不同层的输出进行组合的技术，旨在提升模型的表现。特征融合主要用于增强特征表示能力，特别是在处理多尺度特征、跨模态任务、以及需要融合多个来源的信息时尤为重要。

常见的特征融合方式

串联（Concatenation）
加法（Addition）
乘法（Multiplication/Attention）
全局池化（Global Pooling）
特征金字塔网络（Feature Pyramid Network, FPN）
跨模态融合（Cross-Modal Fusion）
自注意力机制（Self-Attention Mechanism）

1. 串联（Concatenation）

概念：将多个特征图在某一维度上进行拼接，通常是在深度（通道）维度上拼接。串联可以保留每个特征图的完整信息，但可能会增加参数量。
应用：UNet——在图像分割任务中，UNet模型在下采样和上采样路径之间使用了跳跃连接，通过串联低层特征和高层特征，提升模型的分割效果。
代码示例：

import tensorflow as tf
from tensorflow.keras import layers

# 假设我们有两个特征图：feature_map1 和 feature_map2
feature_map1 = tf.random.normal([1, 64, 64, 64])  # (batch_size, height, width, channels)
feature_map2 = tf.random.normal([1, 64, 64, 128])

# 在通道维度上进行拼接
fused_feature = tf.concat([feature_map1, feature_map2], axis=-1)  # 输出形状 (1, 64, 64, 192)
print(fused_feature.shape)

应用场景：UNet 中的上采样路径和下采样路径的特征融合。

2. 加法（Addition）

概念：将多个特征图进行逐元素相加。这种方式比串联更为简单，并且可以保留不同特征图之间的平衡关系。
应用：ResNet——残差网络中的跳跃连接（Skip Connection）通过加法方式将输入特征和卷积特征相加，解决了深层网络中的梯度消失问题。
代码示例：

import tensorflow as tf
from tensorflow.keras import layers

# 假设我们有两个特征图：feature_map1 和 feature_map2，形状必须一致
feature_map1 = tf.random.normal([1, 64, 64, 64])
feature_map2 = tf.random.normal([1, 64, 64, 64])

# 逐元素加法融合
fused_feature = feature_map1 + feature_map2
print(fused_feature.shape)

应用场景：ResNet 的残差块。

3. 乘法（Multiplication/Attention）

概念：乘法可以用于特征增强或者注意力机制，常见的方式是通过注意力图对特征进行加权乘法操作。
应用：SE-Block（Squeeze-and-Excitation Block）——通过全局池化和全连接层生成注意力权重，对每个通道进行加权，实现通道上的注意力机制。
代码示例：

import tensorflow as tf
from tensorflow.keras import layers

# 假设我们有一个特征图和一个权重向量
feature_map = tf.random.normal([1, 64, 64, 128])
attention_weights = tf.random.uniform([1, 1, 1, 128])

# 逐通道加权乘法
fused_feature = feature_map * attention_weights
print(fused_feature.shape)

应用场景：SENet 中的通道注意力机制。

4. 全局池化（Global Pooling）

概念：全局池化将特征图的空间维度通过求平均（Global Average Pooling, GAP）或最大值（Global Max Pooling, GMP）降维为一个单一值，用于保留全局特征。
应用：GoogLeNet——在网络的末端使用全局平均池化来减少参数量。
代码示例：

import tensorflow as tf
from tensorflow.keras import layers

# 假设我们有一个特征图
feature_map = tf.random.normal([1, 64, 64, 128])

# 全局平均池化
global_avg_pooled = tf.reduce_mean(feature_map, axis=[1, 2])  # 只保留通道维度
print(global_avg_pooled.shape)

应用场景：GoogLeNet 的全局特征提取。

5. 特征金字塔网络（FPN）

概念：特征金字塔网络（FPN）是一种多尺度特征融合方式，它在对象检测任务中广泛使用，通过自顶向下的路径将高分辨率和低分辨率的特征进行融合，适应不同尺度的目标。
应用：RetinaNet——FPN被广泛应用于对象检测任务中，增强了模型在多尺度下的检测性能。
代码示例：

import tensorflow as tf
from tensorflow.keras import layers

# 假设我们有两个来自不同层的特征图：high_level 和 low_level
high_level = tf.random.normal([1, 32, 32, 256])
low_level = tf.random.normal([1, 64, 64, 128])

# 通过上采样将高层特征与低层特征融合
high_level_upsampled = tf.image.resize(high_level, size=(64, 64))  # 上采样到与低层特征相同大小
fused_feature = high_level_upsampled + low_level
print(fused_feature.shape)

应用场景：RetinaNet 和 Faster R-CNN 中的特征金字塔网络。

6. 跨模态融合（Cross-Modal Fusion）

概念：跨模态融合用于结合来自不同模态（如图像、文本、音频等）的特征。常用于多模态任务，如视频分类中的图像和音频融合、视觉问答任务中的图像和文本融合。
应用：视觉问答（VQA）——通过融合图像特征和文本特征来回答视觉问题。
代码示例：

import tensorflow as tf
from tensorflow.keras import layers

# 图像特征和文本特征
image_feature = tf.random.normal([1, 64, 128])  # 图像特征 (batch_size, height, channels)
text_feature = tf.random.normal([1, 1, 128])  # 文本特征 (batch_size, 1, channels)

# 融合（可以通过加法、乘法或串联等方式）
fused_feature = tf.concat([image_feature, text_feature], axis=1)
print(fused_feature.shape)

应用场景：VQA 中的跨模态融合。

7. 自注意力机制（Self-Attention Mechanism）

概念：自注意力机制通过为每个位置（空间或时间）分配一个权重来加强重要特征。它被广泛应用于自然语言处理（如 Transformer）和图像任务（如 Non-local Networks）中。
应用：Transformer——通过自注意力机制捕捉序列中远距离的依赖关系。
代码示例：

import tensorflow as tf
from tensorflow.keras import layers

# 自注意力机制的简化实现
def self_attention(feature_map):
    batch_size, height, width, channels = feature_map.shape
    query = layers.Dense(channels)(feature_map)
    key = layers.Dense(channels)(feature_map)
    value = layers.Dense(channels)(feature_map)
    
    # 计算注意力得分
    attention_scores = tf.nn.softmax(tf.matmul(query, key, transpose_b=True))
    
    # 注意力加权后的特征
    attention_output = tf.matmul(attention_scores, value)
    return attention_output

feature_map = tf.random.normal([1, 64, 64, 128])
attention_feature = self_attention(feature_map)
print(attention_feature.shape)