2023-NIPS《Joint Feature and Differentiable k-NN Graph Learning using Dirichlet Energy》


核心思想

论文提出了一种基于Dirichlet能量的深度无监督特征选择(Feature Selection, FS)框架,同时进行特征选择和可微分的k近邻(k-NN)图学习。其核心思想包括:

  1. 联合特征选择与图学习

    • 传统无监督特征选择方法(如Laplacian Score)依赖预计算的固定图结构,当数据包含大量无关特征时,图质量较差,影响特征选择的性能。论文提出通过Dirichlet能量联合优化特征选择和k-NN图结构,动态学习反映数据内在结构的图和信息性特征。
    • Dirichlet能量衡量特征在图结构上的局部平滑性(smoothness),用于识别与数据内在结构一致的重要特征。
  2. 可微分框架

    • 针对传统k-NN图构建中的不可微分排序问题,论文引入Gumbel Softmax技术解决离散特征选择的不可微分性,并利用**最优传输(Optimal Transport, OT)**理论实现可微分的k-NN选择。
    • 所有模块(特征选择器和图学习器)均算法化设计,具有可解释性和可扩展性,可作为其他图神经网络的前端模块。
  3. 模块化设计

    • 唯一特征选择器(Unique Feature Selector, UFS):通过Gumbel Softmax生成离散特征选择矩阵,并通过正交化避免重复选择特征。
    • 可微分k-NN图学习器(Differentiable k-NN Graph Learner, DGL):基于最优传输理论学习自适应k-NN图,优化图结构以反映选定特征子空间的内在结构。
  4. 无监督特性

    • 模型无需任务特定标签,适合多种下游任务(如分类、聚类),通过最小化Dirichlet能量选择通用特征。

目标函数

论文的目标函数旨在通过最小化Dirichlet能量联合优化特征选择和k-NN图学习,具体形式如下:

  1. 总体目标函数
    目标是通过选择特征子集X^∈Rn×m\hat{\boldsymbol{X}} \in \mathbb{R}^{n \times m}X^Rn×m和学习相似性矩阵S∈Rn×n\boldsymbol{S} \in \mathbb{R}^{n \times n}SRn×n,最小化以下目标函数:

    min⁡F,SLobj(X^)=tr⁡(X^TLX^)+α∥S∥F2, \min_{\boldsymbol{F}, \boldsymbol{S}} \mathcal{L}_{\text{obj}}(\hat{\boldsymbol{X}}) = \operatorname{tr}(\hat{\boldsymbol{X}}^T \boldsymbol{L} \hat{\boldsymbol{X}}) + \alpha \|\boldsymbol{S}\|_F^2, F,SminLobj(X^)=tr(X^TLX^)+αSF2,

    约束条件为:

    • X^=XF\hat{\boldsymbol{X}} = \boldsymbol{X} \boldsymbol{F}X^=XF,其中X∈Rn×d\boldsymbol{X} \in \mathbb{R}^{n \times d}XRn×d是输入数据,F∈{0,1}d×m\boldsymbol{F} \in \{0,1\}^{d \times m}F{0,1}d×m是二值特征选择矩阵,FTF=Im\boldsymbol{F}^T \boldsymbol{F} = \boldsymbol{I}_mFTF=Im确保选择mmm个唯一特征。
    • S1n=1n\boldsymbol{S} \mathbf{1}_n = \mathbf{1}_nS1n=1nsi,j≥0s_{i,j} \geq 0si,j0si,i=0s_{i,i} = 0si,i=0,确保相似性矩阵表示有效的k-NN图。
    • L=D−S+ST2\boldsymbol{L} = \boldsymbol{D} - \frac{\boldsymbol{S} + \boldsymbol{S}^T}{2}L=D2S+ST是拉普拉斯矩阵,其中D\boldsymbol{D}D是对角度矩阵,di,i=∑j=1nsi,jd_{i,i} = \sum_{j=1}^n s_{i,j}di,i=j=1nsi,j

    其中:

    • tr⁡(X^TLX^)=∑i=1mLdir(x^i)\operatorname{tr}(\hat{\boldsymbol{X}}^T \boldsymbol{L} \hat{\boldsymbol{X}}) = \sum_{i=1}^m \mathcal{L}_{\text{dir}}(\hat{\boldsymbol{x}}_i)tr(X^TLX^)=i=1mLdir(x^i)是Dirichlet能量,衡量选定特征在图上的平滑性。
    • α∥S∥F2\alpha \|\boldsymbol{S}\|_F^2αSF2是Tikhonov正则化项,防止S\boldsymbol{S}S退化为平凡解(如单位矩阵)。
  2. 特征选择子问题
    为选择mmm个特征,优化以下子问题:

    min⁡Ftr⁡(X^TLX^)s.t.X^=XF,F∈{0,1}d×m,FTF=Im. \min_{\boldsymbol{F}} \operatorname{tr}(\hat{\boldsymbol{X}}^T \boldsymbol{L} \hat{\boldsymbol{X}}) \quad \text{s.t.} \quad \hat{\boldsymbol{X}} = \boldsymbol{X} \boldsymbol{F}, \boldsymbol{F} \in \{0,1\}^{d \times m}, \boldsymbol{F}^T \boldsymbol{F} = \boldsymbol{I}_m. Fmintr(X^TLX^)s.t.X^=XF,F{0,1}d×m,FTF=Im.

    • 使用Gumbel Softmax生成近似离散的特征选择向量f^i\hat{\boldsymbol{f}}_if^i

      f^i=softmax⁡(log⁡wi+giT),gi,j=−log⁡(−log⁡ui,j),ui,j∼Uniform(0,1), \hat{\boldsymbol{f}}_i = \operatorname{softmax}\left( \frac{\log \boldsymbol{w}_i + \boldsymbol{g}_i}{T} \right), \quad g_{i,j} = -\log(-\log u_{i,j}), \quad u_{i,j} \sim \text{Uniform}(0,1), f^i=softmax(Tlogwi+gi),gi,j=log(logui,j),ui,jUniform(0,1),

      其中wi\boldsymbol{w}_iwi是可学习参数,TTT是温度参数,逐渐退火以逼近离散分布。

    • 为确保特征唯一性,通过算法1(UFS)对F^\hat{\boldsymbol{F}}F^进行正交化处理:

      A=F^TF^+ϵIm,A=PΛPT,A=LLT,F=[Λ1/2PT0]L−1. \boldsymbol{A} = \hat{\boldsymbol{F}}^T \hat{\boldsymbol{F}} + \epsilon \boldsymbol{I}_m, \quad \boldsymbol{A} = \boldsymbol{P} \boldsymbol{\Lambda} \boldsymbol{P}^T, \quad \boldsymbol{A} = \boldsymbol{L} \boldsymbol{L}^T, \quad \boldsymbol{F} = \left[ \begin{array}{c} \boldsymbol{\Lambda}^{1/2} \boldsymbol{P}^T \\ \mathbf{0} \end{array} \right] \boldsymbol{L}^{-1}. A=F^TF^+ϵIm,A=PΛPT,A=LLT,F=[Λ1/2PT0]L1.

  3. 图学习子问题
    为学习k-NN图的相似性矩阵S\boldsymbol{S}S,优化以下子问题:

    min⁡Str⁡(X^TLX^)+α∥S∥F2s.t.S1n=1n,si,j≥0,si,i=0. \min_{\boldsymbol{S}} \operatorname{tr}(\hat{\boldsymbol{X}}^T \boldsymbol{L} \hat{\boldsymbol{X}}) + \alpha \|\boldsymbol{S}\|_F^2 \quad \text{s.t.} \quad \boldsymbol{S} \mathbf{1}_n = \mathbf{1}_n, s_{i,j} \geq 0, s_{i,i} = 0. Smintr(X^TLX^)+αSF2s.t.S1n=1n,si,j0,si,i=0.

    • 每行sis^isi独立优化,转换为:

      min⁡si12∥si+ei2αi∥22s.t.si1n=1,si,j≥0,si,i=0, \min_{s^i} \frac{1}{2} \left\| s^i + \frac{\boldsymbol{e}^i}{2 \alpha_i} \right\|_2^2 \quad \text{s.t.} \quad s^i \mathbf{1}_n = 1, s_{i,j} \geq 0, s_{i,i} = 0, simin21si+2αiei22s.t.si1n=1,si,j0,si,i=0,

      其中ei\boldsymbol{e}^iei是距离向量,ei,j=∥x^i−x^j∥22e_{i,j} = \|\hat{\boldsymbol{x}}^i - \hat{\boldsymbol{x}}^j\|_2^2ei,j=x^ix^j22αi\alpha_iαi是样本特定的正则化参数。

    • 通过KKT条件解得:

      si,j=(1k+1keiδi(k)2αi−ei,j2αi)+, s_{i,j} = \left( \frac{1}{k} + \frac{1}{k} \frac{\boldsymbol{e}^i \boldsymbol{\delta}_i^{(k)}}{2 \alpha_i} - \frac{e_{i,j}}{2 \alpha_i} \right)_+, si,j=(k1+k12αieiδi(k)2αiei,j)+,

      其中δi(k)\boldsymbol{\delta}_i^{(k)}δi(k)是标识ei\boldsymbol{e}^iei中前kkk个最小值的选择向量。

    • 为确保sis^isi只有kkk个非零元素,选择αi=12(keiξi(k+1)−eiδi(k))\alpha_i = \frac{1}{2} (k \boldsymbol{e}^i \boldsymbol{\xi}_i^{(k+1)} - \boldsymbol{e}^i \boldsymbol{\delta}_i^{(k)})αi=21(keiξi(k+1)eiδi(k)),最终解为:

      si,σj=eiξi(k+1)−ei,σjkeiξi(k+1)−eiδi(k)⋅Bool(1≤j≤k), s_{i,\sigma_j} = \frac{\boldsymbol{e}^i \boldsymbol{\xi}_i^{(k+1)} - e_{i,\sigma_j}}{k \boldsymbol{e}^i \boldsymbol{\xi}_i^{(k+1)} - \boldsymbol{e}^i \boldsymbol{\delta}_i^{(k)}} \cdot \text{Bool}(1 \leq j \leq k), si,σj=keiξi(k+1)eiδi(k)eiξi(k+1)ei,σjBool(1jk),

      其中ξi(k+1)\boldsymbol{\xi}_i^{(k+1)}ξi(k+1)标识ei\boldsymbol{e}^iei中第k+1k+1k+1个最小值。

  4. 可微分k-NN选择

    • 传统排序算法不可微,论文通过最优传输(OT)将k-NN选择转化为可微分问题:

      min⁡Γ⟨C,Γ⟩+γ∑i,jΓi,jlog⁡Γi,js.t.Γ1k+2=μ,ΓT1n=ν,Γi,j≥0, \min_{\Gamma} \langle \boldsymbol{C}, \boldsymbol{\Gamma} \rangle + \gamma \sum_{i,j} \Gamma_{i,j} \log \Gamma_{i,j} \quad \text{s.t.} \quad \boldsymbol{\Gamma} \mathbf{1}_{k+2} = \boldsymbol{\mu}, \boldsymbol{\Gamma}^T \mathbf{1}_n = \boldsymbol{\nu}, \Gamma_{i,j} \geq 0, ΓminC,Γ+γi,jΓi,jlogΓi,js.t.Γ1k+2=μ,ΓT1n=ν,Γi,j0,

      其中C\boldsymbol{C}C是成本矩阵,ci,j=(ei−j+1)2c_{i,j} = (e_i - j + 1)^2ci,j=(eij+1)2γ\gammaγ是熵正则化参数,μ\boldsymbol{\mu}μν\boldsymbol{\nu}ν是概率分布。

    • 通过迭代Bregman投影求解Γ\boldsymbol{\Gamma}Γ,得到δi(k)\boldsymbol{\delta}_i^{(k)}δi(k)ξi(k+1)\boldsymbol{\xi}_i^{(k+1)}ξi(k+1)

      δp(k)=n∑i=1kΓi,ξp(k+1)=nΓk+1. \boldsymbol{\delta}_p^{(k)} = n \sum_{i=1}^k \Gamma_i, \quad \boldsymbol{\xi}_p^{(k+1)} = n \Gamma_{k+1}. δp(k)=ni=1kΓi,ξp(k+1)=nΓk+1.


优化过程

优化过程通过联合优化特征选择矩阵F\boldsymbol{F}F和相似性矩阵S\boldsymbol{S}S实现,采用基于梯度的深度学习框架(PyTorch实现),具体步骤如下:

  1. 初始化

    • 初始化特征选择参数W\boldsymbol{W}W(用于Gumbel Softmax)和图学习参数。
    • 设置超参数:学习率η∈{10−4,10−3,10−2,10−1,100,101}\eta \in \{10^{-4}, 10^{-3}, 10^{-2}, 10^{-1}, 10^0, 10^1\}η{104,103,102,101,100,101},k-NN参数k∈{1,2,3,4,5}k \in \{1, 2, 3, 4, 5\}k{1,2,3,4,5},熵正则化参数γ∈{10−3,10−2,10−1}\gamma \in \{10^{-3}, 10^{-2}, 10^{-1}\}γ{103,102,101},温度参数TTT(初始值高,逐渐退火)。
  2. 特征选择模块(UFS)

    • 生成特征选择向量:通过Gumbel Softmax计算f^i\hat{\boldsymbol{f}}_if^i,逼近离散分布。
    • 正交化处理
      • 计算A=F^TF^+ϵIm\boldsymbol{A} = \hat{\boldsymbol{F}}^T \hat{\boldsymbol{F}} + \epsilon \boldsymbol{I}_mA=F^TF^+ϵImϵ\epsilonϵ为小正数(如10−610^{-6}106),确保A\boldsymbol{A}A正定。
      • 进行Cholesky分解A=LLT\boldsymbol{A} = \boldsymbol{L} \boldsymbol{L}^TA=LLT,计算F=F^(L−1)T\boldsymbol{F} = \hat{\boldsymbol{F}} (\boldsymbol{L}^{-1})^TF=F^(L1)T,确保FTF=Im\boldsymbol{F}^T \boldsymbol{F} = \boldsymbol{I}_mFTF=Im,避免重复选择特征。
    • 计算选定特征X^=XF\hat{\boldsymbol{X}} = \boldsymbol{X} \boldsymbol{F}X^=XF
  3. 图学习模块(DGL)

    • 距离计算:基于选定特征X^\hat{\boldsymbol{X}}X^,计算距离矩阵E\boldsymbol{E}Eei,j=∥x^i−x^j∥22e_{i,j} = \|\hat{\boldsymbol{x}}^i - \hat{\boldsymbol{x}}^j\|_2^2ei,j=x^ix^j22
    • 可微分k-NN选择
      • 初始化OT参数:μi=1n\boldsymbol{\mu}_i = \frac{1}{n}μi=n1νj=1n\nu_j = \frac{1}{n}νj=n1j≤k+1j \leq k+1jk+1)或n−k−1n\frac{n-k-1}{n}nnk1j=k+2j = k+2j=k+2),ci,j=(ei−j+1)2c_{i,j} = (e_i - j + 1)^2ci,j=(eij+1)2
      • 通过迭代Bregman投影(200次迭代)求解熵正则化OT问题,得到传输计划Γ\boldsymbol{\Gamma}Γ
      • 计算选择向量δi(k)\boldsymbol{\delta}_i^{(k)}δi(k)ξi(k+1)\boldsymbol{\xi}_i^{(k+1)}ξi(k+1)
    • 计算相似性矩阵:根据公式(9)计算si,σjs_{i,\sigma_j}si,σj,构建S\boldsymbol{S}S,并计算对称化拉普拉斯矩阵L=D−S+ST2\boldsymbol{L} = \boldsymbol{D} - \frac{\boldsymbol{S} + \boldsymbol{S}^T}{2}L=D2S+ST
  4. 联合优化

    • 使用Adam优化器(1000个epoch)最小化目标函数tr⁡(X^TLX^)+α∥S∥F2\operatorname{tr}(\hat{\boldsymbol{X}}^T \boldsymbol{L} \hat{\boldsymbol{X}}) + \alpha \|\boldsymbol{S}\|_F^2tr(X^TLX^)+αSF2
    • 通过反向传播更新W\boldsymbol{W}W(特征选择参数)和图学习参数,联合优化F\boldsymbol{F}FS\boldsymbol{S}S
    • 温度参数TTT按退火策略逐渐减小,增强F^\hat{\boldsymbol{F}}F^的离散性。
  5. 收敛与输出

    • 监控目标函数值,收敛后输出选定特征X^\hat{\boldsymbol{X}}X^和图结构S\boldsymbol{S}S
    • 对于下游任务,使用X^\hat{\boldsymbol{X}}X^进行分类(随机森林)、聚类(k-means)或重构(自编码器)。

目标函数的局限性及改进建议

尽管论文提出的目标函数和优化框架在理论和实验上表现出色,但仍存在以下局限性,并可通过以下改进建议进一步优化:

  1. 局限性:对超参数的敏感性

    • 问题:目标函数涉及多个超参数(如学习率η\etaη、k-NN参数kkk、熵正则化参数γ\gammaγ、特征数量mmm)。虽然实验表明模型对η\etaηkkkγ\gammaγ的敏感性较低,但mmm(选择特征数量)对性能影响较大,需通过交叉验证确定,增加了计算成本。
    • 改进建议
      • 引入自适应特征数量选择机制。例如,基于Dirichlet能量的变化率自动确定mmm,当新增特征导致Dirichlet能量降低幅度小于阈值时停止选择。
      • 使用贝叶斯优化或元学习方法自动搜索超参数空间,减少人工调参成本。
  2. 局限性:噪声鲁棒性有限

    • 问题:尽管模型通过联合优化特征和图结构提高了对噪声的鲁棒性,但在高噪声数据集(如Madelon)上,初始图结构可能仍受无关特征影响,导致次优解。
    • 改进建议
      • 在目标函数中引入噪声鲁棒性正则化项,如基于鲁棒统计量(如中位数而非均值)计算距离矩阵E\boldsymbol{E}E,或在Dirichlet能量中加入异常值检测机制。
      • 采用多阶段训练策略:先用简单方法(如Laplacian Score)预选特征,初步过滤噪声,再进行联合优化。
  3. 局限性:计算复杂度

    • 问题:可微分k-NN选择依赖最优传输和Bregman投影(200次迭代),对大规模数据集(高nnn)计算成本较高。此外,特征选择矩阵F\boldsymbol{F}F的正交化涉及Cholesky分解,复杂度为O(m3)O(m^3)O(m3)
    • 改进建议
      • 使用近似最优传输算法(如Sinkhorn算法的快速变体)降低OT计算复杂度。
      • 对于正交化,探索更高效的矩阵分解方法(如QR分解)或近似正交化策略。
      • 引入并行化或分布式计算,特别是在GPU上优化Bregman投影的迭代过程。
  4. 局限性:图结构的局部性

    • 问题:k-NN图只考虑局部邻居,可能忽略全局结构信息,导致在复杂数据分布(如非流形结构)上性能下降。
    • 改进建议
      • 结合全局图结构学习方法,如在目标函数中加入谱聚类正则化项,鼓励S\boldsymbol{S}S捕捉全局簇结构。
      • 引入多尺度k-NN图,通过优化多个kkk值(如k=5,10,20k=5, 10, 20k=5,10,20)的加权组合,平衡局部和全局信息。
  5. 局限性:可解释性有限

    • 问题:虽然模块设计具有算法化可解释性,但最终选定特征和图结构的解释仍依赖Dirichlet能量,缺乏直观的语义解释。
    • 改进建议
      • 在特征选择后,增加可视化模块(如t-SNE或UMAP)分析选定特征的语义分布,提供直观解释。
      • 引入基于注意力机制的特征重要性评分,结合Dirichlet能量生成特征排名的解释性报告。
  6. 局限性:对特征标准化假设的依赖

    • 问题:目标函数假设特征具有零均值和单位方差(1nTxi=0\mathbf{1}_n^T \boldsymbol{x}_i = 01nTxi=0xiTxi=1\boldsymbol{x}_i^T \boldsymbol{x}_i = 1xiTxi=1),在实际数据中可能不成立,需额外预处理。
    • 改进建议
      • 在目标函数中加入自适应标准化项,自动学习特征的均值和方差,减少预处理依赖。
      • 探索非标准化特征的Dirichlet能量变体,如基于协方差矩阵调整L\boldsymbol{L}L的定义。

实验结果与验证

论文在合成数据集(Blobs、Moons、Circles)和12个真实数据集(包括文本、生物、图像和人工数据)上验证了模型的有效性:

  • 合成数据集:展示了模型在噪声干扰下仍能有效选择信息性特征和学习准确的k-NN图(见Figure 3)。
  • 真实数据集
    • 分类任务(Table S1):在Madelon(0.90±0.01)、Yale(0.81±0.05)、GLIOMA(0.81±0.09)等数据集上优于其他方法(如CAE、UDFS)。
    • 聚类任务(Table S2):在Jaffe(0.87±0.06)、GLIOMA(0.75±0.08)等数据集上表现优异。
    • 重构任务(Table S5):在Jaffe(0.22±0.01)、PROSTATE(0.73±0.13)等数据集上RMSE较低。
  • 消融研究(Table S4、S5):证明UFS和DGL模块对性能的贡献,去除DGL后性能显著下降(如Madelon分类从0.90降至0.50)。
  • 参数敏感性(Figure S3):模型对η\etaηkkkγ\gammaγ鲁棒,但对mmm敏感,需谨慎选择。

总结

论文通过Dirichlet能量提出了一种新颖的深度无监督特征选择框架,联合优化特征选择和k-NN图学习,利用Gumbel Softmax和最优传输技术实现可微分优化。其目标函数清晰,优化过程高效,实验结果验证了其在多种数据集上的优越性能。然而,模型对超参数mmm的敏感性、计算复杂度以及对特征标准化的依赖是主要局限性。未来可通过自适应特征选择、噪声鲁棒性增强和高效算法优化进一步改进,使其更适合大规模、复杂数据场景。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Christo3

你的鼓励将是我创作的最大动力!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值