图像编码中的纹理基元与稀疏编码解析
立即解锁
发布时间: 2025-09-02 01:13:15 阅读量: 18 订阅数: 27 AIGC 


计算机视觉的统计模型
### 图像编码中的纹理基元与稀疏编码解析
在图像编码领域,寻求更高效、更准确的图像表示方法一直是研究的核心目标。其中,纹理基元(Textons)和稀疏编码(Sparse Coding)相关模型为我们提供了独特且强大的解决方案。
#### 1. 过完备基与图像表示
在信号处理中,使用过完备基来表示信号是一种有效的策略。如果一组向量在移除部分元素后仍然是一个基,那么它就是过完备的。也就是说,过完备基的向量数量大于输入向量的维度。这种过完备性能够帮助我们实现对输入向量更稳定、鲁棒且紧凑的分解。
当输入向量是图像时,我们可以将图像视为二维函数,此时基向量就变成了基函数。这些基函数构成了表示输入图像的基础。例如,常见的基函数有Gabor、高斯拉普拉斯(LoG)和其他小波函数。
- **Olshausen–Field模型**:在图像编码中,我们从一个基函数字典开始,其定义为 $\boldsymbol{\Psi} = \{\psi_{\ell}(u, v), \ell = 1, \ldots, L_{\psi}\}$。通过对基函数进行平移、旋转和缩放变换 $A = (x, y, \tau, \sigma)$,我们可以得到一组新的基函数 $\Delta = \{\psi_{\ell}(u, v, A) : A = (x, y, \tau, \sigma) \in G_A, \ell = 1, \ldots, L_{\psi}\}$。
#### 2. 稀疏编码模型
几乎所有的图像编码方案都采用了一种简单的生成式图像模型。该模型假设图像 $\mathbf{I}$ 是从 $\Delta$ 中选择的一些基函数的线性叠加,再加上一个高斯噪声图像 $\mathbf{n}$,即 $\mathbf{I} = \sum_{i}^{n_B} \alpha_i \cdot \psi_i + \mathbf{n}$,其中 $n_B$ 是基函数的数量,$\alpha_i$ 是第 $i$ 个基函数 $\psi_i$ 的系数。
由于 $\Delta$ 是过完备的,索引基函数 $\psi_i$ 的变量 $(\ell_i, \alpha_i, x_i, y_i, \tau_i, \sigma_i)$ 被视为潜在(隐藏)变量,需要通过概率推理来确定,这与傅里叶变换等确定性变换不同。所有的隐藏变量都总结在一个基映射 $\mathbf{B}$ 中,$\mathbf{B} = (n_B, \{b_i = (\ell_i, \alpha_i, x_i, y_i, \tau_i, \sigma_i) : i = 1, \ldots, n_B\})$。
在图像编码文献中,基函数通常被假设为独立同分布(i.i.d.),并且位置、尺度和方向被假设为均匀分布。因此,基映射 $\mathbf{B}$ 的概率分布可以表示为 $p(\mathbf{B}) = p(n_B) \prod_{i = 1}^{n_B} p(b_i)$,其中 $p(b_i) = p(\alpha_i) \cdot \mathrm{unif}(\ell_i) \cdot \mathrm{unif}(x_i, y_i) \cdot \mathrm{unif}(\tau_i) \cdot \mathrm{unif}(\sigma_i)$。
已知图像滤波器在自然图像上的响应具有高峰度直方图,这意味着大多数时候滤波器的响应几乎为零,偶尔会有较大的响应。这就引出了Olshausen和Field提出的稀疏编码思想。例如,$p(\alpha)$ 可以选择为拉普拉斯分布或两个高斯分布的混合,只要 $p(\alpha)$ 具有高峰度,其具体形式并不是关键。
在上述图像模型中,基映射 $\mathbf{B}$ 包含隐藏变量,而字典 $\boldsymbol{\Psi}$ 是参数。例如,Olshausen和Field使用了 $L_{\psi} = 144$ 个基函数,每个基函数是一个 $12 \times 12$ 的图像块。他们通过类似EM的学习算法从大量自然图像块中学习 $\boldsymbol{\Psi}$。这些学习到的基函数捕捉了一些图像结构,并且被认为与灵长类动物V1区简单细胞的响应相似。
#### 3. 三层生成模型
我们可以将之前介绍的简单生成式图像模型扩展为三层生成模型。在这个模型中,图像 $\mathbf{I}$ 由基映射 $\mathbf{B}$ 生成,基函数从字典 $\boldsymbol{\Psi}$ 中选择并进行一些变换。而基映射 $\mathbf{B}$ 又由纹理基元映射 $\mathbf{T}$ 生成,纹理基元元素从纹理基元字典 $\boldsymbol{\Pi}$ 中选择并进行一些变换。每个纹理基元元素由一些具有可变形几何配置的基函数组成。
这一过程可以表示为 $\mathbf{T} \xrightarrow{\boldsymbol{\Pi}} \mathbf{B} \xrightarrow{\boldsymbol{\Psi}} \mathbf{I}$,其中 $\boldsymbol{\Psi} = \{\psi_{\ell}, \ell = 1, 2, \ldots, L_{\psi}\}$,$\boldsymbol{\Pi} = \{\pi_{\ell}; \ell = 1, 2, \ldots, L_{\pi}\}$。
通过类比语音中的波形 - 音素 - 单词层次结构,像素 - 基 - 纹理基元层次结构提供了越来越抽象的视觉描述。这种表示方式实现了维度降低,并且纹理基元元素解释了基函数的空间共现性。
为了简化问题,我们固定基字典为三个常见的基函数:高斯拉普拉斯、Gabor余弦和Gabor正弦,即 $\boldsymbol{\Psi} = \{\psi_1, \psi_2, \psi_3\} = \{LoG, G\cos, G\sin\}$。
下面我们用一个mermaid流程图来展示三层生成模型的流程:
```mermaid
graph LR
classDef process fill:#E5F6FF,stroke:#73A6FF,stroke-width:2px
A(纹理基元字典
```
0
0
复制全文
相关推荐









