核心思想
论文提出了一种基于Dirichlet能量的深度无监督特征选择(Feature Selection, FS)框架,同时进行特征选择和可微分的k近邻(k-NN)图学习。其核心思想包括:
-
联合特征选择与图学习:
- 传统无监督特征选择方法(如Laplacian Score)依赖预计算的固定图结构,当数据包含大量无关特征时,图质量较差,影响特征选择的性能。论文提出通过Dirichlet能量联合优化特征选择和k-NN图结构,动态学习反映数据内在结构的图和信息性特征。
- Dirichlet能量衡量特征在图结构上的局部平滑性(smoothness),用于识别与数据内在结构一致的重要特征。
-
可微分框架:
- 针对传统k-NN图构建中的不可微分排序问题,论文引入Gumbel Softmax技术解决离散特征选择的不可微分性,并利用**最优传输(Optimal Transport, OT)**理论实现可微分的k-NN选择。
- 所有模块(特征选择器和图学习器)均算法化设计,具有可解释性和可扩展性,可作为其他图神经网络的前端模块。
-
模块化设计:
- 唯一特征选择器(Unique Feature Selector, UFS):通过Gumbel Softmax生成离散特征选择矩阵,并通过正交化避免重复选择特征。
- 可微分k-NN图学习器(Differentiable k-NN Graph Learner, DGL):基于最优传输理论学习自适应k-NN图,优化图结构以反映选定特征子空间的内在结构。
-
无监督特性:
- 模型无需任务特定标签,适合多种下游任务(如分类、聚类),通过最小化Dirichlet能量选择通用特征。
目标函数
论文的目标函数旨在通过最小化Dirichlet能量联合优化特征选择和k-NN图学习,具体形式如下:
-
总体目标函数:
目标是通过选择特征子集X^∈Rn×m\hat{\boldsymbol{X}} \in \mathbb{R}^{n \times m}X^∈Rn×m和学习相似性矩阵S∈Rn×n\boldsymbol{S} \in \mathbb{R}^{n \times n}S∈Rn×n,最小化以下目标函数:minF,SLobj(X^)=tr(X^TLX^)+α∥S∥F2, \min_{\boldsymbol{F}, \boldsymbol{S}} \mathcal{L}_{\text{obj}}(\hat{\boldsymbol{X}}) = \operatorname{tr}(\hat{\boldsymbol{X}}^T \boldsymbol{L} \hat{\boldsymbol{X}}) + \alpha \|\boldsymbol{S}\|_F^2, F,SminLobj(X^)=tr(X^TLX^)+α∥S∥F2,
约束条件为:
- X^=XF\hat{\boldsymbol{X}} = \boldsymbol{X} \boldsymbol{F}X^=XF,其中X∈Rn×d\boldsymbol{X} \in \mathbb{R}^{n \times d}X∈Rn×d是输入数据,F∈{0,1}d×m\boldsymbol{F} \in \{0,1\}^{d \times m}F∈{0,1}d×m是二值特征选择矩阵,FTF=Im\boldsymbol{F}^T \boldsymbol{F} = \boldsymbol{I}_mFTF=Im确保选择mmm个唯一特征。
- S1n=1n\boldsymbol{S} \mathbf{1}_n = \mathbf{1}_nS1n=1n,si,j≥0s_{i,j} \geq 0si,j≥0,si,i=0s_{i,i} = 0si,i=0,确保相似性矩阵表示有效的k-NN图。
- L=D−S+ST2\boldsymbol{L} = \boldsymbol{D} - \frac{\boldsymbol{S} + \boldsymbol{S}^T}{2}L=D−2S+ST是拉普拉斯矩阵,其中D\boldsymbol{D}D是对角度矩阵,di,i=∑j=1nsi,jd_{i,i} = \sum_{j=1}^n s_{i,j}di,i=∑j=1nsi,j。
其中:
- tr(X^TLX^)=∑i=1mLdir(x^i)\operatorname{tr}(\hat{\boldsymbol{X}}^T \boldsymbol{L} \hat{\boldsymbol{X}}) = \sum_{i=1}^m \mathcal{L}_{\text{dir}}(\hat{\boldsymbol{x}}_i)tr(X^TLX^)=∑i=1mLdir(x^i)是Dirichlet能量,衡量选定特征在图上的平滑性。
- α∥S∥F2\alpha \|\boldsymbol{S}\|_F^2α∥S∥F2是Tikhonov正则化项,防止S\boldsymbol{S}S退化为平凡解(如单位矩阵)。
-
特征选择子问题:
为选择mmm个特征,优化以下子问题:minFtr(X^TLX^)s.t.X^=XF,F∈{0,1}d×m,FTF=Im. \min_{\boldsymbol{F}} \operatorname{tr}(\hat{\boldsymbol{X}}^T \boldsymbol{L} \hat{\boldsymbol{X}}) \quad \text{s.t.} \quad \hat{\boldsymbol{X}} = \boldsymbol{X} \boldsymbol{F}, \boldsymbol{F} \in \{0,1\}^{d \times m}, \boldsymbol{F}^T \boldsymbol{F} = \boldsymbol{I}_m. Fmintr(X^TLX^)s.t.X^=XF,F∈{0,1}d×m,FTF=Im.
-
使用Gumbel Softmax生成近似离散的特征选择向量f^i\hat{\boldsymbol{f}}_if^i:
f^i=softmax(logwi+giT),gi,j=−log(−logui,j),ui,j∼Uniform(0,1), \hat{\boldsymbol{f}}_i = \operatorname{softmax}\left( \frac{\log \boldsymbol{w}_i + \boldsymbol{g}_i}{T} \right), \quad g_{i,j} = -\log(-\log u_{i,j}), \quad u_{i,j} \sim \text{Uniform}(0,1), f^i=softmax(Tlogwi+gi),gi,j=−log(−logui,j),ui,j∼Uniform(0,1),
其中wi\boldsymbol{w}_iwi是可学习参数,TTT是温度参数,逐渐退火以逼近离散分布。
-
为确保特征唯一性,通过算法1(UFS)对F^\hat{\boldsymbol{F}}F^进行正交化处理:
A=F^TF^+ϵIm,A=PΛPT,A=LLT,F=[Λ1/2PT0]L−1. \boldsymbol{A} = \hat{\boldsymbol{F}}^T \hat{\boldsymbol{F}} + \epsilon \boldsymbol{I}_m, \quad \boldsymbol{A} = \boldsymbol{P} \boldsymbol{\Lambda} \boldsymbol{P}^T, \quad \boldsymbol{A} = \boldsymbol{L} \boldsymbol{L}^T, \quad \boldsymbol{F} = \left[ \begin{array}{c} \boldsymbol{\Lambda}^{1/2} \boldsymbol{P}^T \\ \mathbf{0} \end{array} \right] \boldsymbol{L}^{-1}. A=F^TF^+ϵIm,A=PΛPT,A=LLT,F=[Λ1/2PT0]L−1.
-
-
图学习子问题:
为学习k-NN图的相似性矩阵S\boldsymbol{S}S,优化以下子问题:minStr(X^TLX^)+α∥S∥F2s.t.S1n=1n,si,j≥0,si,i=0. \min_{\boldsymbol{S}} \operatorname{tr}(\hat{\boldsymbol{X}}^T \boldsymbol{L} \hat{\boldsymbol{X}}) + \alpha \|\boldsymbol{S}\|_F^2 \quad \text{s.t.} \quad \boldsymbol{S} \mathbf{1}_n = \mathbf{1}_n, s_{i,j} \geq 0, s_{i,i} = 0. Smintr(X^TLX^)+α∥S∥F2s.t.S1n=1n,si,j≥0,si,i=0.
-
每行sis^isi独立优化,转换为:
minsi12∥si+ei2αi∥22s.t.si1n=1,si,j≥0,si,i=0, \min_{s^i} \frac{1}{2} \left\| s^i + \frac{\boldsymbol{e}^i}{2 \alpha_i} \right\|_2^2 \quad \text{s.t.} \quad s^i \mathbf{1}_n = 1, s_{i,j} \geq 0, s_{i,i} = 0, simin21si+2αiei22s.t.si1n=1,si,j≥0,si,i=0,
其中ei\boldsymbol{e}^iei是距离向量,ei,j=∥x^i−x^j∥22e_{i,j} = \|\hat{\boldsymbol{x}}^i - \hat{\boldsymbol{x}}^j\|_2^2ei,j=∥x^i−x^j∥22,αi\alpha_iαi是样本特定的正则化参数。
-
通过KKT条件解得:
si,j=(1k+1keiδi(k)2αi−ei,j2αi)+, s_{i,j} = \left( \frac{1}{k} + \frac{1}{k} \frac{\boldsymbol{e}^i \boldsymbol{\delta}_i^{(k)}}{2 \alpha_i} - \frac{e_{i,j}}{2 \alpha_i} \right)_+, si,j=(k1+k12αieiδi(k)−2αiei,j)+,
其中δi(k)\boldsymbol{\delta}_i^{(k)}δi(k)是标识ei\boldsymbol{e}^iei中前kkk个最小值的选择向量。
-
为确保sis^isi只有kkk个非零元素,选择αi=12(keiξi(k+1)−eiδi(k))\alpha_i = \frac{1}{2} (k \boldsymbol{e}^i \boldsymbol{\xi}_i^{(k+1)} - \boldsymbol{e}^i \boldsymbol{\delta}_i^{(k)})αi=21(keiξi(k+1)−eiδi(k)),最终解为:
si,σj=eiξi(k+1)−ei,σjkeiξi(k+1)−eiδi(k)⋅Bool(1≤j≤k), s_{i,\sigma_j} = \frac{\boldsymbol{e}^i \boldsymbol{\xi}_i^{(k+1)} - e_{i,\sigma_j}}{k \boldsymbol{e}^i \boldsymbol{\xi}_i^{(k+1)} - \boldsymbol{e}^i \boldsymbol{\delta}_i^{(k)}} \cdot \text{Bool}(1 \leq j \leq k), si,σj=keiξi(k+1)−eiδi(k)eiξi(k+1)−ei,σj⋅Bool(1≤j≤k),
其中ξi(k+1)\boldsymbol{\xi}_i^{(k+1)}ξi(k+1)标识ei\boldsymbol{e}^iei中第k+1k+1k+1个最小值。
-
-
可微分k-NN选择:
-
传统排序算法不可微,论文通过最优传输(OT)将k-NN选择转化为可微分问题:
minΓ⟨C,Γ⟩+γ∑i,jΓi,jlogΓi,js.t.Γ1k+2=μ,ΓT1n=ν,Γi,j≥0, \min_{\Gamma} \langle \boldsymbol{C}, \boldsymbol{\Gamma} \rangle + \gamma \sum_{i,j} \Gamma_{i,j} \log \Gamma_{i,j} \quad \text{s.t.} \quad \boldsymbol{\Gamma} \mathbf{1}_{k+2} = \boldsymbol{\mu}, \boldsymbol{\Gamma}^T \mathbf{1}_n = \boldsymbol{\nu}, \Gamma_{i,j} \geq 0, Γmin⟨C,Γ⟩+γi,j∑Γi,jlogΓi,js.t.Γ1k+2=μ,ΓT1n=ν,Γi,j≥0,
其中C\boldsymbol{C}C是成本矩阵,ci,j=(ei−j+1)2c_{i,j} = (e_i - j + 1)^2ci,j=(ei−j+1)2,γ\gammaγ是熵正则化参数,μ\boldsymbol{\mu}μ和ν\boldsymbol{\nu}ν是概率分布。
-
通过迭代Bregman投影求解Γ\boldsymbol{\Gamma}Γ,得到δi(k)\boldsymbol{\delta}_i^{(k)}δi(k)和ξi(k+1)\boldsymbol{\xi}_i^{(k+1)}ξi(k+1):
δp(k)=n∑i=1kΓi,ξp(k+1)=nΓk+1. \boldsymbol{\delta}_p^{(k)} = n \sum_{i=1}^k \Gamma_i, \quad \boldsymbol{\xi}_p^{(k+1)} = n \Gamma_{k+1}. δp(k)=ni=1∑kΓi,ξp(k+1)=nΓk+1.
-
优化过程
优化过程通过联合优化特征选择矩阵F\boldsymbol{F}F和相似性矩阵S\boldsymbol{S}S实现,采用基于梯度的深度学习框架(PyTorch实现),具体步骤如下:
-
初始化:
- 初始化特征选择参数W\boldsymbol{W}W(用于Gumbel Softmax)和图学习参数。
- 设置超参数:学习率η∈{10−4,10−3,10−2,10−1,100,101}\eta \in \{10^{-4}, 10^{-3}, 10^{-2}, 10^{-1}, 10^0, 10^1\}η∈{10−4,10−3,10−2,10−1,100,101},k-NN参数k∈{1,2,3,4,5}k \in \{1, 2, 3, 4, 5\}k∈{1,2,3,4,5},熵正则化参数γ∈{10−3,10−2,10−1}\gamma \in \{10^{-3}, 10^{-2}, 10^{-1}\}γ∈{10−3,10−2,10−1},温度参数TTT(初始值高,逐渐退火)。
-
特征选择模块(UFS):
- 生成特征选择向量:通过Gumbel Softmax计算f^i\hat{\boldsymbol{f}}_if^i,逼近离散分布。
- 正交化处理:
- 计算A=F^TF^+ϵIm\boldsymbol{A} = \hat{\boldsymbol{F}}^T \hat{\boldsymbol{F}} + \epsilon \boldsymbol{I}_mA=F^TF^+ϵIm,ϵ\epsilonϵ为小正数(如10−610^{-6}10−6),确保A\boldsymbol{A}A正定。
- 进行Cholesky分解A=LLT\boldsymbol{A} = \boldsymbol{L} \boldsymbol{L}^TA=LLT,计算F=F^(L−1)T\boldsymbol{F} = \hat{\boldsymbol{F}} (\boldsymbol{L}^{-1})^TF=F^(L−1)T,确保FTF=Im\boldsymbol{F}^T \boldsymbol{F} = \boldsymbol{I}_mFTF=Im,避免重复选择特征。
- 计算选定特征:X^=XF\hat{\boldsymbol{X}} = \boldsymbol{X} \boldsymbol{F}X^=XF。
-
图学习模块(DGL):
- 距离计算:基于选定特征X^\hat{\boldsymbol{X}}X^,计算距离矩阵E\boldsymbol{E}E,ei,j=∥x^i−x^j∥22e_{i,j} = \|\hat{\boldsymbol{x}}^i - \hat{\boldsymbol{x}}^j\|_2^2ei,j=∥x^i−x^j∥22。
- 可微分k-NN选择:
- 初始化OT参数:μi=1n\boldsymbol{\mu}_i = \frac{1}{n}μi=n1,νj=1n\nu_j = \frac{1}{n}νj=n1(j≤k+1j \leq k+1j≤k+1)或n−k−1n\frac{n-k-1}{n}nn−k−1(j=k+2j = k+2j=k+2),ci,j=(ei−j+1)2c_{i,j} = (e_i - j + 1)^2ci,j=(ei−j+1)2。
- 通过迭代Bregman投影(200次迭代)求解熵正则化OT问题,得到传输计划Γ\boldsymbol{\Gamma}Γ。
- 计算选择向量δi(k)\boldsymbol{\delta}_i^{(k)}δi(k)和ξi(k+1)\boldsymbol{\xi}_i^{(k+1)}ξi(k+1)。
- 计算相似性矩阵:根据公式(9)计算si,σjs_{i,\sigma_j}si,σj,构建S\boldsymbol{S}S,并计算对称化拉普拉斯矩阵L=D−S+ST2\boldsymbol{L} = \boldsymbol{D} - \frac{\boldsymbol{S} + \boldsymbol{S}^T}{2}L=D−2S+ST。
-
联合优化:
- 使用Adam优化器(1000个epoch)最小化目标函数tr(X^TLX^)+α∥S∥F2\operatorname{tr}(\hat{\boldsymbol{X}}^T \boldsymbol{L} \hat{\boldsymbol{X}}) + \alpha \|\boldsymbol{S}\|_F^2tr(X^TLX^)+α∥S∥F2。
- 通过反向传播更新W\boldsymbol{W}W(特征选择参数)和图学习参数,联合优化F\boldsymbol{F}F和S\boldsymbol{S}S。
- 温度参数TTT按退火策略逐渐减小,增强F^\hat{\boldsymbol{F}}F^的离散性。
-
收敛与输出:
- 监控目标函数值,收敛后输出选定特征X^\hat{\boldsymbol{X}}X^和图结构S\boldsymbol{S}S。
- 对于下游任务,使用X^\hat{\boldsymbol{X}}X^进行分类(随机森林)、聚类(k-means)或重构(自编码器)。
目标函数的局限性及改进建议
尽管论文提出的目标函数和优化框架在理论和实验上表现出色,但仍存在以下局限性,并可通过以下改进建议进一步优化:
-
局限性:对超参数的敏感性:
- 问题:目标函数涉及多个超参数(如学习率η\etaη、k-NN参数kkk、熵正则化参数γ\gammaγ、特征数量mmm)。虽然实验表明模型对η\etaη、kkk、γ\gammaγ的敏感性较低,但mmm(选择特征数量)对性能影响较大,需通过交叉验证确定,增加了计算成本。
- 改进建议:
- 引入自适应特征数量选择机制。例如,基于Dirichlet能量的变化率自动确定mmm,当新增特征导致Dirichlet能量降低幅度小于阈值时停止选择。
- 使用贝叶斯优化或元学习方法自动搜索超参数空间,减少人工调参成本。
-
局限性:噪声鲁棒性有限:
- 问题:尽管模型通过联合优化特征和图结构提高了对噪声的鲁棒性,但在高噪声数据集(如Madelon)上,初始图结构可能仍受无关特征影响,导致次优解。
- 改进建议:
- 在目标函数中引入噪声鲁棒性正则化项,如基于鲁棒统计量(如中位数而非均值)计算距离矩阵E\boldsymbol{E}E,或在Dirichlet能量中加入异常值检测机制。
- 采用多阶段训练策略:先用简单方法(如Laplacian Score)预选特征,初步过滤噪声,再进行联合优化。
-
局限性:计算复杂度:
- 问题:可微分k-NN选择依赖最优传输和Bregman投影(200次迭代),对大规模数据集(高nnn)计算成本较高。此外,特征选择矩阵F\boldsymbol{F}F的正交化涉及Cholesky分解,复杂度为O(m3)O(m^3)O(m3)。
- 改进建议:
- 使用近似最优传输算法(如Sinkhorn算法的快速变体)降低OT计算复杂度。
- 对于正交化,探索更高效的矩阵分解方法(如QR分解)或近似正交化策略。
- 引入并行化或分布式计算,特别是在GPU上优化Bregman投影的迭代过程。
-
局限性:图结构的局部性:
- 问题:k-NN图只考虑局部邻居,可能忽略全局结构信息,导致在复杂数据分布(如非流形结构)上性能下降。
- 改进建议:
- 结合全局图结构学习方法,如在目标函数中加入谱聚类正则化项,鼓励S\boldsymbol{S}S捕捉全局簇结构。
- 引入多尺度k-NN图,通过优化多个kkk值(如k=5,10,20k=5, 10, 20k=5,10,20)的加权组合,平衡局部和全局信息。
-
局限性:可解释性有限:
- 问题:虽然模块设计具有算法化可解释性,但最终选定特征和图结构的解释仍依赖Dirichlet能量,缺乏直观的语义解释。
- 改进建议:
- 在特征选择后,增加可视化模块(如t-SNE或UMAP)分析选定特征的语义分布,提供直观解释。
- 引入基于注意力机制的特征重要性评分,结合Dirichlet能量生成特征排名的解释性报告。
-
局限性:对特征标准化假设的依赖:
- 问题:目标函数假设特征具有零均值和单位方差(1nTxi=0\mathbf{1}_n^T \boldsymbol{x}_i = 01nTxi=0,xiTxi=1\boldsymbol{x}_i^T \boldsymbol{x}_i = 1xiTxi=1),在实际数据中可能不成立,需额外预处理。
- 改进建议:
- 在目标函数中加入自适应标准化项,自动学习特征的均值和方差,减少预处理依赖。
- 探索非标准化特征的Dirichlet能量变体,如基于协方差矩阵调整L\boldsymbol{L}L的定义。
实验结果与验证
论文在合成数据集(Blobs、Moons、Circles)和12个真实数据集(包括文本、生物、图像和人工数据)上验证了模型的有效性:
- 合成数据集:展示了模型在噪声干扰下仍能有效选择信息性特征和学习准确的k-NN图(见Figure 3)。
- 真实数据集:
- 分类任务(Table S1):在Madelon(0.90±0.01)、Yale(0.81±0.05)、GLIOMA(0.81±0.09)等数据集上优于其他方法(如CAE、UDFS)。
- 聚类任务(Table S2):在Jaffe(0.87±0.06)、GLIOMA(0.75±0.08)等数据集上表现优异。
- 重构任务(Table S5):在Jaffe(0.22±0.01)、PROSTATE(0.73±0.13)等数据集上RMSE较低。
- 消融研究(Table S4、S5):证明UFS和DGL模块对性能的贡献,去除DGL后性能显著下降(如Madelon分类从0.90降至0.50)。
- 参数敏感性(Figure S3):模型对η\etaη、kkk、γ\gammaγ鲁棒,但对mmm敏感,需谨慎选择。
总结
论文通过Dirichlet能量提出了一种新颖的深度无监督特征选择框架,联合优化特征选择和k-NN图学习,利用Gumbel Softmax和最优传输技术实现可微分优化。其目标函数清晰,优化过程高效,实验结果验证了其在多种数据集上的优越性能。然而,模型对超参数mmm的敏感性、计算复杂度以及对特征标准化的依赖是主要局限性。未来可通过自适应特征选择、噪声鲁棒性增强和高效算法优化进一步改进,使其更适合大规模、复杂数据场景。