解决缺失敏感信息图数据个体公平性问题的IFGNN模型

### 解决缺失敏感信息图数据个体公平性问题的IFGNN模型 #### 1. 背景与问题提出图结构数据在表示现实世界复杂系统方面应用广泛，如社交网络、金融网络和知识图谱等。图神经网络（GNNs）是解决这些图数据下游任务的有效方法，包括节点分类、链接预测、社区检测和图搜索等。GNNs的消息传递机制使其能够强大地学习图结构和节点属性信息，生成节点嵌入。然而，消息传递机制容易受到敏感属性的影响，导致下游任务的表示出现偏差。在消息传递过程中，邻居节点的敏感属性（如种族、性别和年龄）会被包含并放大，从而在GNN中产生偏差，这在高风险决策和分类应用中可能导致不公平的隐性偏好，甚至引发社会歧视。为解决敏感属性导致的歧视问题，研究者提出了群体公平和个体公平的概念。群体公平确保不同人口子群体受到平等对待，而个体公平旨在减轻模型对每个个体的偏差，对相似个体给予相同的待遇。特别是在图数据中存在敏感属性缺失的情况下，个体公平可能是唯一的公平标准。在许多现实应用中，由于数据收集不完整和隐私问题，图数据通常存在信息缺失的情况。现有研究主要集中在假设图数据完整无缺失敏感属性，或使用GNN来预测缺失信息。但这些方法可能引入噪声和误差，影响模型的准确性和公平性，且大多未解决个体不公平问题。 #### 2. 研究贡献 - 提出了一个新问题，即解决具有无限缺失敏感属性的图数据的个体不公平问题，并确保预测性能。 - 提出了一种基于GNN的编码器和解码器模型IFGNN，结合Lipschitz约束，在不预测缺失信息的情况下解决该问题。 - 在四个真实世界数据集上的实验表明，IFGNN在个体公平性和预测准确性方面优于基线模型。 #### 3. 相关工作促进公平性的方法可分为预处理、处理中和后处理三种策略： |策略|说明|示例| | ---- | ---- | ---- | |预处理|修改原始数据集中的偏置属性或直接引入公平节点嵌入|Fairwalk框架使用node2vec通过公平感知嵌入方法生成公平节点嵌入| |处理中|将公平约束目标函数集成到模型中|Zhang等人提出的对抗学习框架，通过优化预测函数同时削弱对抗函数来平衡模型的公平性| |后处理|在模型执行后处理，减轻输出嵌入中的歧视|Masrour等人的工作引入了二元级公平标准，生成补充链接以缓解互联网用户接收过多敏感属性主导信息的问题| 这些策略包括传统方法和基于GNN的方法。传统方法如Zemel等人的框架通过混淆个体的非敏感属性实现减少偏差的数据编码，ifair框架将个人属性映射到低秩表示同时确保数据完整性。近年来，GNN得到了显著发展，如GFairHint模型通过确定两个节点是否相似来生成公平感知图数据，并使用GNN生成公平节点嵌入。此外，引入Lipschitz条件作为公平约束是现有研究中的常见策略，如InFoRM框架和GUIDE模型。但针对不完整图数据的公平性研究仍然有限，现有的相关模型如FairGNN主要关注群体公平，且在处理缺失敏感属性时存在局限性。 #### 4. 预备知识设$G = (V, E, X)$表示一个无向属性图，其中： - $V = \{v_1, v_2, ..., v_N\}$是$N$个节点的集合，每个节点$v \in V$关联一组$M$个属性$\{x_1^v, x_2^v, ..., x_M^v\}$，其中一个属性$x_s \in \{0, 1\}$被视为敏感属性。 - $V_S \subseteq V$表示具有缺失敏感属性的节点集合，$r_s$是缺失比例，即$V_S$中节点数与$V$中节点数的比率。 - $E \subseteq V \times V$是边的集合，$X \in R^{N\times M}$是节点属性矩阵，$M$是属性的维度。 - 矩阵$S \in R^{N\times N}$的值表示节点对输入特征向量之间的余弦相似度。 - $Y = \{y_1, y_2, ..., y_N\}$表示节点标签，$y_N \in \{0, 1\}$。问题陈述：给定一个具有敏感属性$x_s$（包含缺失值）的图$G = (V, E, X)$，目标是学习一个公平的模型$f$用于节点标签预测，可表示为$f(G, x_s) \rightarrow \hat{Y}$。 #### 5. 模型介绍 IFGNN模型由GNN编码器、多层感知机（MLP）解码器、个体公平机制和标签分类器组成。 ##### 5.1 编码器和解码器 - **编码器**：GNN编码器$f$接收原始节点特征矩阵$X \in R^{N\times M}$，通过消息传递机制聚合邻居节点信息生成节点嵌入。对于每个节点$v$，第$l$层的嵌入为$h_l^v = Combine(h_{l - 1}^v, Aggregate(h_l^u, \forall u \in N(v)))$，其中$N(v)$是节点$v$的邻居节点集合。编码器的输出是嵌入矩阵$H = f(X)$，$H \in R^{N\times d}$。任何以GNN为骨干的模型，如GCN和图注意力网络（GAT），都可以用作编码器。 - **解码器**：使用具有非线性激活层的MLP作为解码器$g$，其输出为$X' = g(H)$，$X'$是重构的属性矩阵，$X' \