图像 patch Embedding

最新推荐文章于 2025-05-21 12:15:10 发布

原创最新推荐文章于 2025-05-21 12:15:10 发布 · 2.5k 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #cv #计算机视觉 #python

python 同时被 3 个专栏收录

19 篇文章

订阅专栏

算法

12 篇文章

订阅专栏

机器学习

3 篇文章

订阅专栏

本文介绍了一种将图像转换为一系列补丁的嵌入方法，该方法通过使用卷积层来实现。此过程能够有效地将输入图像分解为固定大小的补丁，并将其映射到高维空间中。

import torch
import torch.nn as nn


class PatchEmbed(nn.Module):
    """ Image to Patch Embedding
    """

    def __init__(self, img_size=224, patch_size=16, in_chans=3, embed_dim=768):
        super().__init__()
        img_size = (img_size, img_size)
        patch_size = (patch_size, patch_size)
        num_patches = (img_size[1] // patch_size[1]) * (img_size[0] // patch_size[0])
        self.img_size = img_size
        self.patch_size = patch_size
        self.num_patches = num_patches

        self.project = nn.Conv2d(in_chans, embed_dim, kernel_size=patch_size, stride=patch_size)

    def forward(self, x):
        B, C, H, W = x.shape
        # FIXME look at relaxing size constraints
        assert H == self.img_size[0] and W == self.img_size[1], \
            f"Input image size ({H}*{W}) doesn't match model ({self.img_size[0]}*{self.img_size[1]})."
        x = self.project(x)
        x = x.flatten(2)
        x = x.transpose(1, 2)
        return x


if __name__ == "__main__":
    x = torch.rand([1, 3, 224, 224])
    model = PatchEmbed()
    y = model(x)
    print(y.shape)

torch.Size([1, 196, 768])

Process finished with exit code 0

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_48629412

关注关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

ViT Patch Embedding理解

YoJayC的博客

06-11

4万+

ViT(Vision Transformer)中的Patch Embedding用于将原始的2维图像转换成一系列的1维patch embeddings。输入图像的维度为

大模型建模基础：Vision Transformer的Patch Embedding层

热门推荐

jialibang的博客

11-10

2万+

Feature Embedding 特征嵌入，将数据转换（降维）为固定大小的特征表示（矢量），以便于处理和计算（如求距离）。例如，针对用于说话者识别的语音信号训练的模型可以允许您将语音片段转换为数字向量，使得来自相同说话者的另一片段与原始向量具有小的距离（例如，欧几里德距离）。 embedding的主要目的是对（稀疏）特征进行降维，它降维的方式可以类比为一个全连接层（没有激活函数），通过 ...

【ViT】Vision Transformer的实现01 patch embedding

weixin_44184852的博客

03-08

1956

输入的通道数是3 embed_dim既是我们要求的输出通道数即每个token的特征维数，同时在卷积运算里面这代表着这层有多少个卷积核，224的图像，我们设置每个patch图像块的尺寸是16，因此呢，我们可以从H和W两个维度将原图像进行分割，然后flatten(2)，在第二维上进行展开 (8,768,16,16)变成了(8,768,16*16)然后卷积核的大小就是patch的大小16，步长的大小也是patch的大小16，这个意思就相当于用16。patch_size是我们分割的图像块的大小 16 像素。

基于畸变 Patch Embedding的拼接类全景图像语义分割方法

06-04

针对拼接类全景图像，由于其存在图像畸变。...将计算得到的曲率和Deformable Patch Embedding的偏置相乘，设计畸变Patch embedding模块，用于拼接全景图像语义分割方法。以上是Python 代码，欢迎交流使用。

用einops直观任性操作Tensor，解决Patch Embedding问题

DaMoWangZQ的博客

12-09

3664

首先看一下原图：是一张jpg格式，512x512分辨率的图像，解码为RGB格式时，shape为[3, 512, 512] 导入einops相关函数 from einops import rearrange, reduce, repeat 常用的就是这三个了，文末有官方教程地址，可全面学习，解决Transform中的第一步的Patch Embedding，rearrange（重新排列，重新整理）就足够了先增加一个b维度 img = rearrange(img, 'c h w -> 1 c h w

论文解读：Class-Aware Patch Embedding Adaptation for Few-Shot Image Classification(2023 CVPR)

weixin_50917576的博客

02-03

2332

“一张图片胜过千言万语”，远远超单纯分类。如果独立观察，图像的许多斑块可能与分类完全无关。这可能会降低大量的few-shot学习算法的效率，算法的数据有限，并且高度依赖于图像patch的比较。为了解决这个问题，我们提出了一种类感知补丁嵌入自适应(CPEA)方法来学习图像补丁的“类感知嵌入”。 CPEA的关键思想是将补丁嵌入与类感知嵌入相结合，使它们与类相关。此外，我们定义了跨图像的类相关补丁嵌入之间的密集分数矩阵，在此基础上量化成对图像之间的相似度。 CPEA将贴片嵌入按类别进行集中从而使贴片嵌入与类别相关

【机器学习】图像嵌入（Graph Embedding）笔记

Achenganggyel的博客

07-25

3232

Graph embedding的简单解释，使用技术和经典算法

最新研究总结：工业图像异常检测

idol24的博客

11-21

9511

点击上方“机器学习与生成对抗网络”，关注"星标"获取有趣、好玩的前沿干货！异常检测，GAN如何gan ?作者丨小小理工男@知乎来源丨https://zhuanlan.zh...

【人工智能笔记】第四十二节：TF2实现VITGAN对抗生成网络，PatchEmbedding 实现

不定时更新AI技术tensorflow实现方式，欢迎关注，有问题请私信我。

05-26

646

【人工智能笔记】第四十二节：TF2实现VITGAN对抗生成网络，PatchEmbedding 实现

图像embedding训练方式_转载 | 对抗训练浅谈：意义、方法和思考（附Keras实现）...

weixin_33656298的博客

01-22

1242

本文转载自公众号：PaperWeekly (paperweekly)整理编辑 | PaperWeekly ©PaperWeekly 原创 · 作者｜苏剑林单位｜追一科技研究方向｜NLP、神经网络当前，说到深度学习中的对抗，一般会有两个含义：一个是生成对抗网络（Generative Adversarial Networks，GAN），代表着一大类先进的生成模型；另一个则是跟对抗攻击、对抗样本相关的领...

PatchEmbed代码讲解记录

vivi_cin的博客

02-14

1288

PatchEmbed讲解

Transformer——Q104 视觉Transformer中Patch Embedding的参数量计算（图像尺寸 H×W，Patch大小 P）

墨顿随笔

05-21

3056

Patch Embedding 作为视觉 Transformer 的关键模块，通过固定 Patch 划分与线性映射，实现了图像特征向语义嵌入的高效转换。其参数量公式体现了模型对计算效率与特征表达的平衡追求。尽管固定 Patch 存在细节损失与多尺度适应性差等问题，但通过动态 Patch、卷积融合、分层设计等优化策略，可显著提升模型性能。实际应用中，需结合任务需求（如医疗图像的细节敏感型任务或遥感图像的多尺度任务），灵活调整 P 和 D，并借助代码实现精细调优。

【论文笔记】 VIT论文笔记，重构Patch Embedding和Attention部分

weixin_44994302的博客

11-20

3358

VIT论文笔记

对ViT 中Patch Embedding理解

weixin_45840973的博客

09-20

3209

对ViT 中Patch Embedding理解

patch embedding怎么变为图像

12-31

### 将 Patch Embedding 转换为图像为了将 patch embedding 转换回原始图像，通常需要执行一系列逆操作。这些操作大致可以概括为以下几个方面： #### 1. 数据重塑首先，假设输入的 patch embedding 形状为 `[batch_size, num_patches, embed_dim]`。由于 `embed_dim` 是由卷积层映射得到的一个高维特征空间，在反向转换过程中，必须先将其恢复成原来的通道数（通常是3）。这可以通过一个线性变换来完成。 ```python import torch.nn as nn class PatchEmbedToImage(nn.Module): def __init__(self, img_size=224, patch_size=16, in_chans=3, embed_dim=768): super().__init__() self.patch_size = patch_size self.num_patches = (img_size // patch_size)**2 # 定义一个线性层用于降维 self.linear_layer = nn.Linear(embed_dim, in_chans * (patch_size ** 2)) def forward(self, x): b, n, d = x.shape # 获取批次大小、补丁数量以及嵌入维度 assert n == self.num_patches and d == 768, "Input dimensions do not match expected values" # 使用线性层降低维度至原通道数乘以单个patch像素总数 patches_flattened = self.linear_layer(x) # 改变形状回到[B,N,C*P*P], 其中 P 表示 patch 大小 patches_reshaped = patches_flattened.view(b, n, -1, self.patch_size*self.patch_size).permute(0, 2, 1, 3) return patches_reshaped.reshape((b, -1, int(patches_reshaped.size(-1)**0.5), int(patches_reshaped.size(-1)**0.5))) ``` 这段代码定义了一个简单的 PyTorch 模型类 `PatchEmbedToImage`，它接受已经编码好的 patch embeddings，并尝试重构出接近原始尺寸的图像数据[^1]。 #### 2. 图像重组上述过程结束后，还需要进一步处理才能获得完整的二维图像表示形式。具体来说就是把所有的小方块重新拼接在一起形成一张大图。这里的关键在于理解如何排列各个patches的位置关系，使其能够无缝对接构成整张图片。对于给定的 `(H,W)` 像素级别的图像被划分为多个相同大小的小区域（即 patches），每个这样的子集都对应着特定的空间位置信息。因此，在重建阶段，应该按照原来划分时所遵循的方式依次放置每一个经过解码后的 patch 片段，最终合成一幅连贯一致的新图像。需要注意的是，实际应用中的模型可能会更加复杂一些，可能涉及到更精细的设计细节比如正则化项的选择或是额外加入跳跃连接机制等等，但基本原理保持不变[^2]。