判别式降维映射与公交行程时长偏差分析
立即解锁
发布时间: 2025-08-20 00:49:51 阅读量: 1 订阅数: 4 


智能数据分析与多标签分类进展
### 判别式降维映射与公交行程时长偏差分析
#### 1. 判别式核t - SNE技术
t - 分布随机邻域嵌入(t - SNE)是一种高度灵活的降维技术。它能保留数据和投影空间中由成对距离所诱导的概率。在原始空间中的数据点 $x_i$ 会诱导出成对概率 $p_{ij} = (p(i|j) + p(j|i))/(2N)$,其中 $N$ 是数据点的数量,且:
\[p_{j|i} := \frac{\exp(-\parallel x_i - x_j\parallel^2/2\sigma_i^2)}{\sum_{k\neq i}\exp(-\parallel x_i - x_k\parallel^2/2\sigma_i^2)}\]
带宽参数是局部设置的,这样邻居的有效数量对应于数据集的一个合理比例。投影 $y_i$ 会诱导出成对概率:
\[q_{ij} := \frac{(1 + \parallel y_i - y_j\parallel^2)^{-1}}{\sum_{k\neq l}(1 + \parallel y_k - y_l\parallel^2)^{-1}}\]
t - SNE 的目标是找到投影 $y_i$,使得通过 Kullback - Leibler 散度衡量的这些概率的差异最小化,使用的是梯度技术。不过,该技术没有提供一个显式映射 $x \to y = y(x)$。因此,在处理新的数据点时,必须解决一个新的优化问题。而且,t - SNE 的计算成本是二次的,所以很难应用于大型数据集。
为了解决这些问题,有人提出将 t - SNE 扩展为显式核映射,即核 t - SNE。该映射由以下函数表征:
\[x \to y(x) = \sum_{j}\alpha_j \cdot \frac{k(x, x_j)}{\sum_{l}k(x, x_l)}\]
其中参数 $\alpha_j \in R^d$。点 $x_j$ 取自用于训练映射的固定数据点样本。$k$ 是一个合适的核函数,如高斯核。映射的参数 $\alpha_j$ 必须根据给定的训练样本 $x_i$ 来确定。一种简单且通常能得到有竞争力结果的方法是:首先,通过标准 t - SNE 将样本点 $x_i$ 映射到投影 $y_i$;然后,确定映射参数 $\alpha_j$ 以最小化这些投影 $y_i$ 和函数值 $y(x_i)$ 的平方误差之和。参数 $\alpha_j$ 的矩阵 $A$ 的显式解可以通过以下公式得到:
\[A = K^{-1}Y\]
其中 $K$ 是归一化的 Gram 矩阵,其元素为 $k(x_i, x_j)/\sum_{j}k(x_i, x_j)$,$Y$ 表示投影 $y_i$ 的矩阵,$K^{-1}$ 指的是伪逆。
核 t - SNE 技术可以将 t - SNE 在小训练集上的出色表现扩展到整个数据空间,通常显示出很好的泛化能力。但如果仅用一小部分数据表示时,数据的规律(如聚类)还不明显,t - SNE 在仅针对小子集进行训练时就无法显示数据的特征。这时,通过显式类标签提供的辅助信息可以在不使用更大训练集的情况下,为降维映射核 t - SNE 提供缺失的信息。
如果核 $k(x, x_j)$ 具有 $k(x, x_j) = f(d(x, x_j))$ 的形式(其中 $d$ 是欧几里得距离,如高斯核),就可以通过参考 Fisher 距离将核 t - SNE 映射扩展为判别式降维映射。我们可以分别用 Fisher 距离或其近似 $d_T$ 来代替 $d$,这基于对有限训练样本 $x_i$ 的 Fisher 信息 $J(x)$ 的估计。这直接导致了一个考虑给定类标签的参数化降维映射。需要注意的是,我们只需要给定训练集的类标签,因为 Fisher 信息 $J(x)$ 可以仅基于 $x$ 到训练集的距离来评估。
为了可视化 $N$ 个数据点,我们首先采样 $
0
0
复制全文
相关推荐










