迈向人工智能公平性：使用生成对抗网络解决数据偏差问题

### 迈向人工智能公平性：使用生成对抗网络解决数据偏差问题 #### 1. 背景人工智能中的算法偏差问题日益受到关注，许多研究致力于识别、评估和改善人工智能的公平性，并探究导致偏差的潜在因素。例如，COMPAS系统的预测对非裔美国人存在偏差，这些有偏差的预测用于法庭决策，可能会不公平地偏袒某些群体。又如，一个用于推广STEM领域工作的广告算法，虽设计为性别中立，但实际上向女性投放广告的比例较低。造成人工智能模型不公平的潜在因素大多归因于训练数据。这些因素包括： - 设备测量偏差导致的数据偏差。 - 历史上人为决策造成的偏差。 - 数据缺失和不平衡导致的偏差。 - 代理非敏感属性引起的偏差等。模型算法本身也会导致偏差，其目标函数旨在最小化整体预测误差，这往往使多数群体受益，而忽视了少数群体。为衡量公平性，引入了多种公平性指标和定义，可分为以下几类： |公平性类别|描述| | ---- | ---- | |群体公平性|关注不同群体之间的公平性| |个体公平性|强调个体层面的公平对待| |子群体公平性|聚焦于特定子群体的公平性| 以数据集 \(D = \{X, S, Y\}\) 为例，其中 \(X \in R^n\) 表示非受保护属性，\(S\) 是确定弱势群体的受保护属性（如性别或种族），\(Y \in \{0, 1\}\) 是标签或决策。假设 \(Y = 0\) 是不期望的标签（如预测个体犯罪），\(Y = 1\) 是期望的标签。标记数据集中的人口统计学均等性定义为 \(P(Y = 1|S = 1) - P(Y = 1|S \neq 0)\)，值越低表示基于受保护属性的期望预测率越相似。此外，还提出了其他公平性衡量方法，如差异影响、平等机会和平等赔率。除了上述公平性衡量方法，还有一些新兴的算法公平性研究子领域，如公平词嵌入和公平视觉描述。公平词嵌入旨在解决词嵌入中固有的偏差，因为词嵌入广泛应用于自然语言处理系统。公平视觉描述则指出，大多数数据集中女性深色皮肤面孔的代表性不足会导致这些群体的误分类率较高。一种简单的实现公平性的方法是忽略敏感属性，在不使用敏感属性的情况下训练机器学习模型。然而，这种方法存在技术问题。被排除的属性可能仍会对非敏感属性产生隐性影响，例如，仅从数据中删除“种族”属性并不能解决贷款决策中的偏差问题，因为“邮政编码”属性可能仍作为种族的代理产生影响。而且，即使删除敏感属性，某些种族可能获得的合适贷款比例仍然较低，这也会影响贷款决策结果。更高级的公平性执行方法可分为以下三类： - **预处理**：在将训练数据集输入机器学习算法之前对其进行修改，包括更改数据点的标签、在训练前重新加权数据，以及更高级的修改特征表示等方法。 - **处理中**：在算法训练过程中执行公平性。 - **后处理**：通过访问在模型训练过程中未使用的保留集来执行公平性。近年来，一些研究尝试使用对抗学习来解决公平性问题。例如，Wadsworth等人开发了一个对抗训练的神经网络，除了进行预测外，还能减轻分类器中的种族偏差。另一个研究使用生成对抗网络（GAN）生成与真实数据集相似的合成数据集，在保留显著统计特性的同时减少偏差。 #### 2. 生成对抗网络（GAN）原始的GAN基于生成器和判别器之间的极小极大博弈。生成器从随机噪声潜在向量中采样，试图生成与真实数据分布相似的向量，以欺骗判别器将生成的数据识别为真实数据。判别器则尝试将生成的数据分类为假数据，将真实数据分类为真实数据。GAN的极小极大目标函数如下： \[ \min_G \max_D E_{x \sim P_{data}(x)}[\log D(x)] + E_{z \sim P_z(z)}[\log(1 - D(G(z)))] \] 其中，\(P_{data}\) 是真实数据分布，\(P_z\) 是输入生成器的噪声分布，\(G(z)\) 是生成器生成的数据。训练判别器至最优等价于最小化Jensen - Shannon散度。然而，GAN存在一些常见的训练问题，如需要在判别器和生成器的训练中保持谨慎的平衡，以及模式崩溃现象（模型仅生成可能结果的有限子集）。为解决这些问题，Arjovky等人开发了Wasserstein GAN，用批评者（critic）代替判别器，用Earth - Mover距离代替Jensen - Shannon散度。新的价值函数通过Kantorovich - Rubinstein对偶性构建： \[ \min_G \max_{D \in \mathcal{D}} E_{x \sim P_{data}(x)}[D(x)] - E_{z \sim P_z(z)}[D(G(z))] \] 其中，\(\mathcal{D}\) 是1 - Lipschitz函数的集合。在最优批评者的情况下，相对于生成器最小化价值函数可最小化Earth - Mover距离。在本研究中，提出了一个WGAN网络，其中1 - Lipschitz约束通过梯度裁剪来执行。 #### 3. 模型架构本部分设计的GAN模型旨在生成表格数据，同时保持变量的联合概率分布与原始数据相似。该模型是一个WGAN，与Xu等人使用两个判别器的方法不同，本模型使用一个批评者，并在训练的两个阶段采用不同的损失函数。 ##### 3.1 数据转换表格数据集包含 \(m\) 个连续变量和 \(n\) 个离散变量。在将数据输入模型之前，需要进行以下转换： - 每个连续变量使用分位数变换器转

最低0.47元/天解锁专栏

赠100次下载

继续阅读点击查看下一篇

400次会员资源下载次数

300万+ 优质博客文章

1000万+ 优质下载资源

1000万+ 优质文库回答

复制全文

迈向人工智能公平性：使用生成对抗网络解决数据偏差问题

相关推荐

专栏目录

迈向人工智能公平性：使用生成对抗网络解决数据偏差问题

相关推荐

迈向可信AI：ChatGPT类生成式人工智能的治理挑战及应对.pdf

国信证券-20230328-人工智能专题报告：生成式人工智能产业全梳理.pdf

【华为-2024研报-】人工智能行业迈向智能世界白皮书2024：数据存储，数据是数字化到数智化成功转型的关键要素.pdf

autotds:自动生成“迈向数据科学”的高质量文章

迈向智能世界系列：工业网络全连接.docx

消除数据孤岛，迈向智能数据湖，释放数据价值FusionData：华为智能数据湖解决方案.rar

迈向临床诊断：使用卷积神经网络对多光谱MR图像进行自动中风病灶分割

迈向高效5G传输：异步物理层网络编码的SER性能分析

消除数据孤岛，迈向智能数据湖，释放数据价值FusionData：华为智能数据湖解决方案.pdf

DANet:双重对抗网络

毕设&课设：Linux系统的安全，通过脚本对Linux系统进行一键检测和一键加固.zip

专栏目录

最新推荐

数据可视化：静态与交互式的优劣及团队模式分析

数据在不同部门的应用与挑战及后续提升建议

利用GARCH模型变体进行股票市场预测中的情感分析实现

打造与分享Excel仪表盘：设计、保护与部署全攻略

软件定义网络的数据可视化与负载均衡实验

基于文本的关系提取与知识图谱构建

数据科学家绩效评估方法解析

Rasa开发：交互式学习、调试、优化与社区生态

数据分析与分层模型解读

数据可视化：工具与Python库的综合指南