自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 收藏
  • 关注

原创 能量模型(EBM)基础知识

能量模型(EBM)通过能量函数刻画数据分布,利用玻尔兹曼分布建模真实数据生成过程。其核心思想是让真实数据对应低能量状态(高概率),噪声数据对应高能量状态(低概率)。EBM通过极大似然估计优化,但计算配分函数Z困难,因此采用对比散度(CD)算法进行梯度优化,使训练数据概率高于采样数据。采样过程借助朗之万动力学,通过随机梯度上升从复杂分布中生成样本。该方法结合了物理系统的能量最小化原理与深度学习的表达能力,为生成模型提供了一种灵活的框架。

2025-08-04 10:43:59 543

原创 一文搞懂ViT模型

ViT(Vision Transformer) 是一种将 Transformer 模型用于计算机视觉任务中的创新架构。ViT 只使用了 Transformer 的编码器 部分进行特征提取和表征学习。核心思想是将传统的(CNN)的卷积操作替换为 Transformer 的注意力机制,借鉴 Transformer 模型在自然语言处理(NLP)中的成功经验,用于图像分类任务。

2025-08-04 09:12:07 950

原创 AE、VAE和VQVAE一文详解

自编码器(AE)与变分自编码器(VAE)是两类重要的生成模型。AE通过编码-解码结构实现数据压缩与重建,但无法生成新样本。VAE通过引入概率分布改进AE,将潜在变量建模为标准正态分布,使模型具备生成能力。VAE的核心是最大化证据下界(ELBO),包含重构项和KL散度项,前者确保生成质量,后者约束潜在空间分布。通过重参数化技巧解决梯度问题,VAE能够从概率分布中采样生成新数据,克服了AE的局限性。

2025-07-31 20:25:51 898

原创 一文详解DiT模型

DiT模型将扩散模型(DDPM)的U-Net替换为Transformer架构,显著提升图像生成质量。DiT通过结合VAE编码器和Transformer,在潜在空间实现高效扩散过程,支持多模态条件融合(如时间步和类别标签。实验表明,DiT具备强扩展性,增大参数量或数据质量可稳步提升生成性能。

2025-07-10 15:57:17 765

原创 扩散模型(DDPM)详解

扩散模型通过前向加噪和逆向去噪过程实现图像生成。前向过程逐步添加高斯噪声,将原始图像转化为标准正态分布;逆向过程利用神经网络学习去噪步骤,从噪声中重建图像。该方法能有效将噪声分布转化为目标图像分布,实现高质量生成。模型优势在于无需显式定义复杂分布,通过噪声调度和神经网络学习即可完成生成任务。

2025-06-29 00:42:02 745

原创 transformer详解:原理和应用

Transformer 模型是一种基于注意力机制的深度学习模型,Transformer 彻底改变了自然语言处理(NLP)领域,并逐渐扩展到计算机视觉(CV)等领域。Transformer 的核心思想是完全摒弃传统的循环神经网络(RNN)结构,仅依赖注意力机制来处理序列数据,从而实现更高的并行性和更快的训练速度。

2025-06-28 11:40:36 807

原创 实现opencv、PIL、matplotlib对图像的保存、显示和其他操作

OpenCV是一个计算机视觉和机器学习软件库。一,图片基本操作cv2.imread(filepath,flags)读入图片,注意:读取的通道顺序是BGR参数意义:彩色图像转灰色3.展示图片4. 读取图片相关信息5. 通道切分与合并6. 调换通道顺序7. 保存图片二、matplotlib处理图像Matplotlib 是 Python 的绘图库, 它可与 NumPy 一起使用。三、PIL1.读取图片2. 保存图像3. 注意事项总结以上就是今天要讲的内容,本

2022-12-03 22:29:09 1207 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除