PAMI-2025 unsupervised Discriminative Feature Selection with ℓ₂,₀-Norm Constrained Sparse Projection

Christo3

已于 2025-08-04 08:40:02 修改

阅读量850

点赞数 23

CC 4.0 BY-SA版权

分类专栏：机器学习文章标签：机器学习人工智能算法

于 2025-08-03 17:01:42 首次发布

本文链接：https://blog.csdn.net/weixin_41552975/article/details/149880586

机器学习专栏收录该内容

143 篇文章

订阅专栏

2. 核心思想 (Core Idea)

该论文的核心思想是提出一种名为 ℓ₂,₀-范数约束稀疏投影的无监督判别性特征选择（Unsupervised Discriminative Feature Selection with ℓ₂,₀-Norm Constrained Sparse Projection, SPDFS）的新方法。

其核心思想可以概括为以下几点：

无监督判别性学习：在没有标签信息的情况下，通过学习一个投影矩阵 $W$ ，将原始高维数据 $X$ 投影到一个低维空间。在这个低维空间中，目标是使得不同簇（cluster）的数据点尽可能地分开（最大化类间散度 $S_t$ ），而同一个簇内的数据点尽可能地聚集（最小化类内散度 $S_d$ ），从而实现判别性（discriminative）。
ℓ₂,₀-范数进行特征选择：使用 ℓ₂,₀-范数（ $W||_{2,0}$ ）来约束投影矩阵 $W$ 。ℓ₂,₀-范数统计的是矩阵 $W$ 中非零行的数量。通过将 $W||_{2,0} = k$ ，可以强制 $W$ 只有 $k$ 行是非零的，这意味着只有 $k$ 个原始特征被用于最终的投影。这直接实现了特征选择，选出的 $k$ 个特征就是 $W$ 中非零行所对应的特征。
联合学习模糊成员度：与传统的硬聚类（如K-means）不同，该方法引入了模糊C均值（Fuzzy C-Means, FCM）的思想，将样本到簇的成员度（membership degree） $Y$ 作为变量与投影矩阵 $W$ 一起进行联合学习。这使得模型能够更好地处理数据分布的模糊性，提升聚类和特征选择的鲁棒性。

总而言之，SPDFS 的核心思想是将无监督特征选择、判别性投影学习和模糊聚类三者统一到一个联合优化框架中，通过 ℓ₂,₀-范数直接控制所选特征的数量。

3. 目标函数 (Objective Function)

论文提出的目标函数（在文中记为问题(6)）如下：

$\min_{W, Y, M} \sum_{i=1}^{n}\sum_{j=1}^{c} y_{ij}^r ||W^\top x_i - m_j||_2^2 - \alpha \text{Tr}(W^\top S_t W)$
$\text{s.t. } W^\top W = I, \quad ||W||_{2,0} = k, \quad Y \mathbf{1}_c = \mathbf{1}_n, \quad Y \in [0, 1], \quad M$

对目标函数的详细解释：

第一项 $∑i=1n∑j=1cyijr∣∣W⊤xi−mj∣∣22\sum_{i=1}^{n}\sum_{j=1}^{c} y_{ij}^r ||W^\top x_i - m_j||_2^2$ ：这是优化的主体。它表示在投影空间 $W⊤XW^\top X$ 中，所有样本到其对应簇中心 $m_j$ 的加权距离之和。 $y_{ij}$ 是样本 $i$ 属于簇 $j$ 的模糊成员度， $r > 1$ 是一个模糊指数，用于控制成员度的模糊程度。这一项越小，表示投影后的数据在各自簇内越紧凑。
第二项 $−αTr(W⊤StW)-\alpha \text{Tr}(W^\top S_t W)$ ：这是一个判别性项。 $S_t$ 是类间散度矩阵， $Tr(W⊤StW)\text{Tr}(W^\top S_t W)$ 表示投影后类间散度的迹。通过减去这一项（等价于最大化它），模型鼓励不同簇的中心在投影空间中尽可能远离，从而增强判别性。 $α\alpha$ 是一个由算法动态更新的平衡参数。
约束条件：
- $W⊤W=IW^\top W = I$ ：保证投影矩阵 $W$ 的列是正交的，防止信息冗余。
- $W||_{2,0} = k$ ：ℓ₂,₀-范数约束，确保只有 $k$ 个特征被选中。
- $\mathbf{1}_c = \mathbf{1}_n, Y \in [0, 1]$ ：保证每个样本的成员度之和为1，且每个成员度在[0,1]区间内。

4. 目标函数的优化过程 (Optimization Process)

由于目标函数同时包含离散的 ℓ₂,₀-范数约束和连续的变量，这是一个NP-hard问题。论文为此设计了两种优化策略：

内部循环 (Inner Loop) - 固定 $Y$ ，优化 $W$ (Algorithm 2)：
当模糊成员度 $Y$ 和平衡参数 $α\alpha$ 固定时，优化问题简化为：
$\min_{W} \text{Tr}(W^\top S_d W) - \alpha \text{Tr}(W^\top S_t W) \quad \text{s.t. } W^\top W = I, ||W||_{2,0} = k$
其中 $S_d$ 是由 $Y$ 计算出的类内散度矩阵。这是一个经典的 ℓ₂,₀-范数约束问题。论文通过一个巧妙的非迭代算法来求解：首先计算矩阵 $Sd−αStS_d - \alpha S_t$ ，然后对该矩阵进行特征值分解，选择前 $m$ 个最大特征值对应的特征向量构成一个临时矩阵 $A$ 。最后，选择 $A$ 中具有最大 ℓ₂-范数的 $k$ 行，这些行对应的特征即为被选中的特征， $W$ 由这些行构成。
外部循环 (Outer Loop) - 交替优化 (Algorithm 3)：
整个优化过程采用交替优化（Alternating Optimization）策略，如Algorithm 3所示：
- 初始化：使用FCM算法初始化模糊成员度矩阵 $Y$ 。
- 迭代更新：
  - 更新 $α\alpha$ ：根据当前的 $W$ 和 $Y$ 计算平衡参数 $α\alpha$ （文中公式(9)）。
  - 更新 $W$ ：调用Algorithm 2，在固定 $Y$ 和 $α\alpha$ 的情况下，求解最优的投影矩阵 $W$ 。
  - 更新 $Y$ ：在固定 $W$ 和 $M$ 的情况下，根据FCM的更新规则（文中公式(26)）更新模糊成员度 $Y$ 。
- 收敛：重复上述步骤，直到目标函数值不再显著下降或达到最大迭代次数。

论文在理论上证明了该交替优化算法具有非增性（non-increasing），即每次迭代后目标函数值不会增加，从而保证了算法在目标函数值上的收敛。

5. 主要贡献点 (Main Contributions)

论文的主要贡献可以总结为以下五点：

提出新模型 SPDFS：首次将 ℓ₂,₀-范数约束的稀疏投影与模糊成员度学习相结合，构建了一个全新的无监督判别性特征选择统一框架。
设计高效优化算法：针对 ℓ₂,₀-范数约束的NP-hard问题，提出了两种优化策略。特别是内部循环的非迭代算法，能高效地找到一个高质量的解。
提供理论保证：对提出的优化算法（Algorithm 3）进行了严格的理论分析，证明了其在目标函数值上的收敛性（Theorem 4），并讨论了其近似保证。
验证模糊学习的价值：通过消融实验（如Fig. 6所示），将SPDFS与不使用模糊成员度的变体（Prob. (33)，即结合K-means）进行对比，实验结果表明，联合学习模糊成员度能显著提升聚类性能，证明了其有效性。
全面的实验验证：在多个真实世界数据集（如Digit, Yale）上进行了聚类和文本分类实验，结果表明SPDFS在ACC（准确率）等指标上优于多种前沿方法（如MCFS, NDFS, UDFS等），验证了其优越性。

6. 实验结果 (Experimental Results)

论文通过大量实验验证了SPDFS的有效性：

聚类性能：在多个数据集上，SPDFS在聚类准确率（ACC）和归一化互信息（NMI）等指标上均优于对比方法（如MCFS, NDFS, UDFS, LS, Baseline等）。例如，在“Digit_10”和“Yale”数据集上，随着所选特征数量 $k$ 的增加，SPDFS的ACC曲线始终位于其他方法之上。
消融实验：通过比较SPDFS（Prob. (6)）和其不使用模糊成员度的版本（Prob. (33)），结果（如Fig. 6所示）清晰地表明，前者性能全面优于后者，有力地证明了联合学习模糊成员度的必要性和优越性。
收敛性分析：实验绘制了算法的收敛曲线（如Fig. 8所示），验证了Algorithm 3的目标函数值随着迭代次数增加而单调递减，直至收敛，与理论分析一致。
参数敏感性：实验分析了关键参数（如模糊指数 $r$ 、所选特征数 $k$ ）对性能的影响，展示了模型的鲁棒性。
可视化：在玩具数据集和真实数据集上进行可视化，直观地展示了SPDFS能够有效地找到判别性特征，并将数据清晰地分开。

7. 算法实现过程详解

根据论文内容，SPDFS（Algorithm 3）的实现过程如下：

输入：数据矩阵 $\in \mathbb{R}^{d \times n}$ ，簇数 $c$ ，所选特征数 $k$ ，降维后的维度 $m$ ，模糊指数 $r$ 。

输出：稀疏投影矩阵 $\in \mathbb{R}^{d \times m}$ ，模糊成员度矩阵 $\in \mathbb{R}^{n \times c}$ 。

步骤：

初始化：
- 使用标准的FCM算法对原始数据 $X$ 进行聚类，得到初始的模糊成员度矩阵 $Y^{(0)}$ 。
- 设置迭代计数器 $t = 0$ 。
外部循环 - 交替优化：
- While 算法未收敛 do
  - 步骤 2.1: 计算平衡参数 $α\alpha$
    - 根据当前的 $W^{(t)}$ 和 $Y^{(t)}$ ，计算类内散度矩阵 $S_d$ 和类间散度矩阵 $S_t$ 。
    - 使用文中公式(9)计算 $α(t+1)\alpha^{(t+1)}$ 。该公式通常与 $S_d$ 和 $S_t$ 的特征值有关，用于平衡目标函数中的两项。
  - 步骤 2.2: 更新投影矩阵 $W$ (调用 Algorithm 2)
    - 固定 $Y^{(t)}$ 和 $α(t+1)\alpha^{(t+1)}$ 。
    - 计算矩阵 $S_d - \alpha^{(t+1)} S_t$ 。
    - 对 $Q$ 进行特征值分解，取前 $m$ 个最大特征值对应的特征向量，构成矩阵 $\in \mathbb{R}^{d \times m}$ 。
    - 计算 $A$ 的每一行的 ℓ₂-范数。
    - 选择 ℓ₂-范数最大的前 $k$ 行的索引，记为集合 $I\mathcal{I}$ 。
    - 从 $A$ 中提取 $I\mathcal{I}$ 对应的行，构成新的矩阵 $W(t+1)∈Rk×mW^{(t+1)} \in \mathbb{R}^{k \times m}$ 。注意，此时 $W^{(t+1)}$ 的维度是 $\times m$ ，它只包含了被选中特征的投影向量。
  - 步骤 2.3: 更新模糊成员度 $Y$
    - 固定 $W^{(t+1)}$ 。
    - 将数据投影到低维空间： $(W^{(t+1)})^\top X$ 。
    - 在投影空间 $Z$ 中，使用FCM算法的标准更新规则（文中公式(26)）更新模糊成员度矩阵 $Y$ ，得到 $Y^{(t+1)}$ 。更新公式通常为：
      $y_{ij}^{(t+1)} = \frac{1}{\sum_{l=1}^{c} \left( \frac{||z_i - m_j^{(t)}||_2^2}{||z_i - m_l^{(t)}||_2^2} \right)^{\frac{1}{r-1}}}$
  - 步骤 2.4: 更新迭代计数器
    - $t = t + 1$ 。
- End While
输出：最终的稀疏投影矩阵 $W^{(t)}$ 和模糊成员度矩阵 $Y^{(t)}$ 。

总结：该算法通过“计算 $α\alpha$ -> 更新 $W$ -> 更新 $Y$ ”的循环，不断优化目标函数。其核心在于利用 ℓ₂,₀-范数的特性，通过特征值分解和行选择，高效地实现了特征选择与判别性投影的联合学习。

为什么 $W = A B$ 即为全局最优解

在论文中，当 $rank(Sd)≤m\text{rank}(S_d) \leq m$ 的特殊情况下， $W = A B$ 被证明是问题(16)的全局最优解。这基于以下几个关键理论和推导步骤：

1. 问题分解与重构

首先，作者将投影矩阵 $\in \mathbb{R}^{d \times m}$ 分解为：
$W = A B$
其中：

$\in \{0,1\}^{d \times k}$ 是行选择矩阵，满足 $A⊤1d=1kA^\top \mathbf{1}_d = \mathbf{1}_k$
$\in \mathbb{R}^{k \times m}$ 是正交矩阵，满足 $B⊤B=Im×mB^\top B = I_{m \times m}$

这种分解将特征选择（通过 $A$ ）和投影方向学习（通过 $B$ ）分离，为求解 $ℓ2,0\ell_{2,0}$ -范数约束问题提供了可能。

2. Ky Fan 定理的应用

在问题(16)中：
$max⁡W⊤W=I,∥W∥2,0=kTr(W⊤SdW)\max_{W^\top W = I, \|W\|_{2,0} = k} \text{Tr}(W^\top S_d W)$

通过分解 $W = A B$ ，问题转化为：
$max⁡A=Ωdk(q),q∈INDdk,B⊤B=ITr(B⊤A⊤SdAB)\max_{A = \Omega_d^k(q), q \in \text{IND}_d^k, B^\top B = I} \text{Tr}(B^\top A^\top S_d AB)$

根据 Ky Fan 定理，上述问题等价于：
$max⁡A=Ωdk(q),q∈INDdk∑i=1mλi(A⊤SdA)\max_{A = \Omega_d^k(q), q \in \text{IND}_d^k} \sum_{i=1}^m \lambda_i(A^\top S_d A)$
其中 $λi(⋅)\lambda_i(\cdot)$ 表示第 $i$ 大特征值。

3. 特殊情况下的简化

在 $rank(Sd)≤m\text{rank}(S_d) \leq m$ 的特殊情况下，有：
$rank(A⊤SdA)≤m\text{rank}(A^\top S_d A) \leq m$

这意味着 $A⊤SdAA^\top S_d A$ 的非零特征值个数不超过 $m$ ，因此：
$∑i=1mλi(A⊤SdA)=Tr(A⊤SdA)\sum_{i=1}^m \lambda_i(A^\top S_d A) = \text{Tr}(A^\top S_d A)$

问题进一步简化为：
$max⁡A=Ωdk(q),q∈INDdkTr(A⊤SdA)\max_{A = \Omega_d^k(q), q \in \text{IND}_d^k} \text{Tr}(A^\top S_d A)$

4. 全局最优解的构造

对于简化后的问题，全局最优解可通过以下步骤构造：

排序对角元：将 $S_d$ 的对角线元素按降序排列，得到索引向量 $\in \text{IND}_d^k$ ，对应前 $k$ 个最大对角元的位置。
构造 $A$ ：通过 $\Omega_d^k(q)$ 构造行选择矩阵，即选择 $S_d$ 的前 $k$ 个最大对角元对应的行。
计算 $B$ ：对 $A⊤SdAA^\top S_d A$ 进行特征值分解，取前 $m$ 个最大特征值对应的特征向量构成 $B$ 。
得到 $W$ ： $W = A B$ 即为全局最优解。

5. 为什么这是全局最优解

关键原因在于：

迹的最大化：在 $rank(Sd)≤m\text{rank}(S_d) \leq m$ 的情况下，最大化特征值之和等价于最大化 $Tr(A⊤SdA)\text{Tr}(A^\top S_d A)$ 。
对角元的选择： $Tr(A⊤SdA)\text{Tr}(A^\top S_d A)$ 的值等于 $S_d$ 中被选中的 $k$ 行 $k$ 列子矩阵的迹。为了最大化这个迹，必须选择 $S_d$ 中具有最大对角元素的 $k$ 行。
最优投影方向：对于选定的 $A$ ，通过特征值分解得到的 $B$ 确保了在所选特征子空间内，投影方向能够最大化判别性。
无近似误差：在 $rank(Sd)≤m\text{rank}(S_d) \leq m$ 的特殊情况下，算法能够精确地找到全局最优解，而非近似解。这与一般情况（ $rank(Sd)>m\text{rank}(S_d) > m$ ）形成对比，后者只能得到 $(1−ε)(1-\varepsilon)$ -近似解。

6. 理论保证

论文在 Lemma 1 和 Theorem 5 中提供了严格的理论保证。特别地，当 $rank(Sd)≤m\text{rank}(S_d) \leq m$ 时，有 $c_1 = c_2 = 0$ ，这意味着 $ε=0\varepsilon = 0$ ，算法能够输出全局最优解：
$Tr(Wm⊤SdWm)=Tr(W∗⊤SdW∗)\text{Tr}(W_m^\top S_d W_m) = \text{Tr}(W^{*^\top} S_d W^*)$

其中 $W^*$ 是问题(16)的全局最优解。

结论

$W = A B$ 是全局最优解，是因为在 $rank(Sd)≤m\text{rank}(S_d) \leq m$ 的特殊情况下，通过选择 $S_d$ 中具有最大对角元素的 $k$ 行（构造 $A$ ）并结合最优投影方向（构造 $B$ ），算法能够精确地最大化目标函数 $Tr(W⊤SdW)\text{Tr}(W^\top S_d W)$ ，而无需任何近似或迭代优化。这种构造方法充分利用了问题的特殊结构和 Ky Fan 定理的理论保证，确保了全局最优性。

在特殊情况下，当 $rank(Sd)≤m\text{rank}(S_d) \leq m$ 时，我们有以下关键结论：

核心逻辑链

矩阵秩的传递性：
- 若 $rank(Sd)≤m\text{rank}(S_d) \leq m$ ，则对于任意矩阵 $\in \mathbb{R}^{d \times k}$ ，有：
  $\text{rank}(A^\top S_d A) \leq \min\{\text{rank}(A), \text{rank}(S_d)\} \leq m.$
- 这意味着 $A⊤SdAA^\top S_d A$ 的秩最多为 $m$ ，其非零特征值的数量不超过 $m$ 。
特征值与迹的关系：
- 对于对称矩阵 $M$ ，其迹等于所有特征值之和：
  $\text{Tr}(M) = \sum_{i=1}^{\text{rank}(M)} \lambda_i(M).$
- 当 $rank(A⊤SdA)≤m\text{rank}(A^\top S_d A) \leq m$ 时， $A⊤SdAA^\top S_d A$ 的前 $m$ 个特征值 $λ1(A⊤SdA),…,λm(A⊤SdA)\lambda_1(A^\top S_d A), \dots, \lambda_m(A^\top S_d A)$ 即为其所有非零特征值。因此：
  $\sum_{i=1}^m \lambda_i(A^\top S_d A) = \text{Tr}(A^\top S_d A).$
问题简化：
- 原问题（公式18）是最大化前 $m$ 个特征值之和：
  $\max_{A = \Omega_d^k(q), \, q \in \mathcal{IND}_d^k} \sum_{i=1}^m \lambda_i(A^\top S_d A).$
- 在 $rank(Sd)≤m\text{rank}(S_d) \leq m$ 的特殊情况下，上式等价于：
  $\max_{A = \Omega_d^k(q), \, q \in \mathcal{IND}_d^k} \text{Tr}(A^\top S_d A).$

数学推导细节

迹的不变性：
- 虽然 $A⊤SdAA^\top S_d A$ 是一个 $\times k$ 的矩阵，但其迹可以通过原矩阵 $S_d$ 的性质间接计算。例如，若 $S_d$ 是对角矩阵（如经过特征分解），则 $A⊤SdAA^\top S_d A$ 的迹仅取决于 $S_d$ 中被 $A$ 选中的对角元素之和。
优化目标的等价性：
- 在特殊情况下，最大化 $∑i=1mλi(A⊤SdA)\sum_{i=1}^m \lambda_i(A^\top S_d A)$ 等价于最大化 $Tr(A⊤SdA)\text{Tr}(A^\top S_d A)$ ，因为两者数值相等。这将复杂的特征值优化问题转化为更易处理的迹优化问题。

几何直观

低秩约束下的投影：
- 当 $S_d$ 的秩较低时，其能量主要集中在少数特征向量上。通过选择 $A$ 来捕获这些高能量方向， $A⊤SdAA^\top S_d A$ 的迹自然最大化，同时避免了高维空间中冗余计算。

算法意义

计算效率提升：
- 在特殊情况下，无需显式计算特征值分解即可直接优化迹，显著降低了计算复杂度。例如，只需选择 $S_d$ 中对角元素最大的 $k$ 行即可构造最优 $A$ （如论文中的行选择策略）。

总结

当 $rank(Sd)≤m\text{rank}(S_d) \leq m$ 时， $A⊤SdAA^\top S_d A$ 的秩受限，其前 $m$ 个特征值之和等于其迹。这一性质使得原本复杂的特征值优化问题简化为迹优化问题，为高效求解提供了理论基础。这是论文中全局最优解成立的关键前提之一。

矩阵的秩与非零特征值之间的关系

矩阵的秩与非零特征值之间存在紧密的数学联系，这一关系在理解论文中算法的理论基础时至关重要。

基本理论关系

对于任意 $\times n$ 对称矩阵 $A$ （如论文中的 $S_d$ 矩阵），以下关系成立：

$\text{rank}(A) = \text{非零特征值的个数}$

详细解释：

对称矩阵的对角化：
任何 $\times n$ 对称矩阵 $A$ 都可以被对角化为：
$Q\Lambda Q^\top$
其中 $Q$ 是正交矩阵（ $Q⊤Q=IQ^\top Q = I$ ）， $Λ\Lambda$ 是对角矩阵，其对角线元素是 $A$ 的特征值 $λ1,λ2,…,λn\lambda_1, \lambda_2, \dots, \lambda_n$ 。
秩的定义：
矩阵的秩是矩阵中线性无关的行（或列）的最大数量。
特征值与秩的关系：
- 由于 $A$ 与 $Λ\Lambda$ 相似，它们具有相同的秩。
- $Λ\Lambda$ 的秩等于其对角线上非零元素的个数。
- 因此， $rank(A)=非零特征值的个数\text{rank}(A) = \text{非零特征值的个数}$ 。

在论文中的应用

在论文中，这一关系是理解算法优化过程的关键：

特殊情况 $rank(Sd)≤m\text{rank}(S_d) \leq m$ ：
- 当 $S_d$ 的秩不超过 $m$ 时， $S_d$ 最多有 $m$ 个非零特征值。
- 对于任意行选择矩阵 $A$ ， $A⊤SdAA^\top S_d A$ 的秩满足：
  $\text{rank}(A^\top S_d A) \leq \min\{\text{rank}(A), \text{rank}(S_d)\} \leq m$
- 这意味着 $A⊤SdAA^\top S_d A$ 最多有 $m$ 个非零特征值。
- 因此，前 $m$ 个特征值之和等于所有特征值之和：
  $\sum_{i=1}^m \lambda_i(A^\top S_d A) = \text{Tr}(A^\top S_d A)$
- 这一等式使得问题(18)简化为问题(19)，从而能够通过简单的行选择获得全局最优解。
一般情况 $rank(Sd)>m\text{rank}(S_d) > m$ ：
- 当 $S_d$ 的秩大于 $m$ 时， $A⊤SdAA^\top S_d A$ 可能有超过 $m$ 个非零特征值。
- 此时：
  $\sum_{i=1}^m \lambda_i(A^\top S_d A) < \text{Tr}(A^\top S_d A)$
- 无法通过简单的行选择获得精确解，需要使用迭代算法（Algorithm 2）来求解近似解。

举例说明

考虑一个 $\times 4$ 的对称矩阵：

$S_d = \begin{pmatrix} 3 & 0 & 0 & 0 \\ 0 & 2 & 0 & 0 \\ 0 & 0 & 1 & 0 \\ 0 & 0 & 0 & 0 \end{pmatrix}$

特征值： $λ1=3\lambda_1 = 3$ , $λ2=2\lambda_2 = 2$ , $λ3=1\lambda_3 = 1$ , $λ4=0\lambda_4 = 0$
非零特征值个数：3
$rank(Sd)=3\text{rank}(S_d) = 3$

情况1：若 $m = 3$ ，则 $rank(Sd)=m\text{rank}(S_d) = m$

$∑i=13λi(Sd)=3+2+1=6=Tr(Sd)\sum_{i=1}^3 \lambda_i(S_d) = 3 + 2 + 1 = 6 = \text{Tr}(S_d)$
问题可以简化为迹最大化问题

情况2：若 $m = 2$ ，则 $rank(Sd)>m\text{rank}(S_d) > m$

$∑i=12λi(Sd)=3+2=5<Tr(Sd)=6\sum_{i=1}^2 \lambda_i(S_d) = 3 + 2 = 5 < \text{Tr}(S_d) = 6$
问题无法简化为迹最大化问题，需要使用迭代算法

Ky Fan定理的证明

Ky Fan定理是矩阵分析中的一个基本结果，它建立了对称矩阵的特征值与子空间上的迹优化之间的联系。下面我将详细证明这个重要定理。

定理陈述

设 $\in \mathbb{R}^{n \times n}$ 是对称矩阵，其特征值按降序排列为 $λ1≥λ2≥⋯≥λn\lambda_1 \geq \lambda_2 \geq \dots \geq \lambda_n$ 。对于任意 $\leq n$ ，有：
$max⁡P⊤P=ImTr(P⊤MP)=∑i=1mλi\max_{P^\top P = I_m} \text{Tr}(P^\top M P) = \sum_{i=1}^m \lambda_i$
其中 $\in \mathbb{R}^{n \times m}$ 是列正交矩阵（即 $P⊤P=ImP^\top P = I_m$ ）。

证明过程

步骤1：对称矩阵的特征分解

由于 $M$ 是对称矩阵，根据谱定理，它可以被正交对角化：
$\Lambda Q^\top$
其中 $Q$ 是正交矩阵（ $Q⊤Q=QQ⊤=IQ^\top Q = QQ^\top = I$ ）， $Λ\Lambda$ 是对角矩阵，其对角线元素是 $M$ 的特征值，按降序排列： $λ1≥λ2≥⋯≥λn\lambda_1 \geq \lambda_2 \geq \dots \geq \lambda_n$ 。

步骤2：迹的循环置换性质

利用迹的循环置换性质（ $Tr(ABC)=Tr(BCA)\text{Tr}(ABC) = \text{Tr}(BCA)$ ），我们可以重写目标函数：
$Tr(P⊤MP)=Tr(P⊤QΛQ⊤P)=Tr((Q⊤P)⊤Λ(Q⊤P))\text{Tr}(P^\top M P) = \text{Tr}(P^\top Q \Lambda Q^\top P) = \text{Tr}((Q^\top P)^\top \Lambda (Q^\top P))$

令 $Q^\top P$ ，则 $R⊤R=P⊤QQ⊤P=P⊤P=ImR^\top R = P^\top Q Q^\top P = P^\top P = I_m$ （因为 $P$ 和 $Q$ 都是列正交的）。

因此：
$Tr(P⊤MP)=Tr(R⊤ΛR)\text{Tr}(P^\top M P) = \text{Tr}(R^\top \Lambda R)$

步骤3：展开迹的表达式

设 $[r_1, r_2, \dots, r_m]$ ，其中 $r_i$ 是 $R$ 的第 $i$ 列。则：
$Tr(R⊤ΛR)=∑i=1mri⊤Λri\text{Tr}(R^\top \Lambda R) = \sum_{i=1}^m r_i^\top \Lambda r_i$

由于 $Λ\Lambda$ 是对角矩阵（ $Λ=diag(λ1,λ2,…,λn)\Lambda = \text{diag}(\lambda_1, \lambda_2, \dots, \lambda_n)$ ），我们有：
$ri⊤Λri=∑j=1nλjrij2r_i^\top \Lambda r_i = \sum_{j=1}^n \lambda_j r_{ij}^2$
其中 $r_{ij}$ 是 $r_i$ 的第 $j$ 个元素。

因此：
$Tr(R⊤ΛR)=∑i=1m∑j=1nλjrij2=∑j=1nλj(∑i=1mrij2)\text{Tr}(R^\top \Lambda R) = \sum_{i=1}^m \sum_{j=1}^n \lambda_j r_{ij}^2 = \sum_{j=1}^n \lambda_j \left(\sum_{i=1}^m r_{ij}^2\right)$

步骤4：分析约束条件

由于 $R⊤R=ImR^\top R = I_m$ ，我们有以下约束：

对于每个 $i$ ， $∑j=1nrij2=1\sum_{j=1}^n r_{ij}^2 = 1$ （因为 $r_i$ 是单位向量）
对于 $\neq k$ ， $∑j=1nrijrkj=0\sum_{j=1}^n r_{ij} r_{kj} = 0$ （因为 $r_i$ 和 $r_k$ 正交）

令 $sj=∑i=1mrij2s_j = \sum_{i=1}^m r_{ij}^2$ ，则：

$∑j=1nsj=∑j=1n∑i=1mrij2=∑i=1m∑j=1nrij2=m\sum_{j=1}^n s_j = \sum_{j=1}^n \sum_{i=1}^m r_{ij}^2 = \sum_{i=1}^m \sum_{j=1}^n r_{ij}^2 = m$
$\leq s_j \leq 1$ （因为 $s_j$ 是 $m$ 个平方项的和，每个平方项非负，且每个 $rij2≤1r_{ij}^2 \leq 1$ ）

步骤5：最大化目标函数

我们需要最大化：
$∑j=1nλjsj\sum_{j=1}^n \lambda_j s_j$

由于 $λ1≥λ2≥⋯≥λn\lambda_1 \geq \lambda_2 \geq \dots \geq \lambda_n$ ，为了最大化这个和，我们应该将尽可能多的"权重"分配给较大的 $λj\lambda_j$ 。

具体来说，令 $s1=s2=⋯=sm=1s_1 = s_2 = \dots = s_m = 1$ ， $sm+1=⋯=sn=0s_{m+1} = \dots = s_n = 0$ 。这样：
$∑j=1nλjsj=∑j=1mλj\sum_{j=1}^n \lambda_j s_j = \sum_{j=1}^m \lambda_j$

验证可行性：

$∑j=1nsj=m\sum_{j=1}^n s_j = m$ ，满足条件
$\leq s_j \leq 1$ ，满足条件

步骤6：验证最优解

当 $R$ 的前 $m$ 列是标准基向量 $e1,e2,…,eme_1, e_2, \dots, e_m$ 时， $s_j = 1$ （ $\leq m$ ）， $s_j = 0$ （ $j > m$ ）。

具体来说，令 $[e_1, e_2, \dots, e_m]$ ，则 $R⊤R=ImR^\top R = I_m$ ，且：
$ri⊤Λri=ei⊤Λei=λir_i^\top \Lambda r_i = e_i^\top \Lambda e_i = \lambda_i$

因此：
$Tr(R⊤ΛR)=∑i=1mλi\text{Tr}(R^\top \Lambda R) = \sum_{i=1}^m \lambda_i$

步骤7：证明这是最大值

假设存在另一个 $R^{'}$ ，使得 $Tr((R′)⊤ΛR′)>∑i=1mλi\text{Tr}((R')^\top \Lambda R') > \sum_{i=1}^m \lambda_i$ 。

令 $sj′=∑i=1m(rij′)2s'_j = \sum_{i=1}^m (r'_{ij})^2$ ，则：
$Tr((R′)⊤ΛR′)=∑j=1nλjsj′\text{Tr}((R')^\top \Lambda R') = \sum_{j=1}^n \lambda_j s'_j$

由于 $∑j=1nsj′=m\sum_{j=1}^n s'_j = m$ 且 $\leq s'_j \leq 1$ ，我们有：
$∑j=1nλjsj′≤∑j=1mλj\sum_{j=1}^n \lambda_j s'_j \leq \sum_{j=1}^m \lambda_j$

这与假设矛盾。因此， $∑i=1mλi\sum_{i=1}^m \lambda_i$ 是最大值。

结论

$max⁡P⊤P=ImTr(P⊤MP)=∑i=1mλi\max_{P^\top P = I_m} \text{Tr}(P^\top M P) = \sum_{i=1}^m \lambda_i$

在论文中的应用

在论文中，这个定理被用来将问题(17)转化为问题(18)：

问题(17)：
$max⁡A=Ωdk(q),q∈INDdk,B⊤B=ITr(B⊤A⊤SdAB)\max_{A = \Omega_d^k(q), q \in \text{IND}_d^k, B^\top B = I} \text{Tr}(B^\top A^\top S_d A B)$

根据Ky Fan定理，对于固定的 $A$ ，最大化 $Tr(B⊤A⊤SdAB)\text{Tr}(B^\top A^\top S_d A B)$ 等价于求 $A⊤SdAA^\top S_d A$ 的前 $m$ 个最大特征值之和。因此，问题(17)可以转化为问题(18)：
$max⁡A=Ωdk(q),q∈INDdk∑i=1mλi(A⊤SdA)\max_{A = \Omega_d^k(q), q \in \text{IND}_d^k} \sum_{i=1}^m \lambda_i(A^\top S_d A)$