基于k-匿名的模型提取导向数据发布
立即解锁
发布时间: 2025-08-20 00:41:44 订阅数: 1 

# 基于 k-匿名的模型提取导向数据发布
## 1. 相关工作
### 1.1 k-匿名与差分隐私
在数据匿名化领域,有两种广泛使用的尺度:k-匿名和 ϵ-差分隐私。
- **k-匿名**:最初由相关研究引入,旨在通过从原始数据集创建另一个数据集来防止重新识别。对于给定的一些属性(称为准标识符属性),如果对于任意给定的记录,至少存在 (k - 1) 条其他记录在这些准标识符属性上具有相同的值,则称该数据集满足 k-匿名。此匿名度量已在加拿大、韩国和英国的 NHS 等机构得到应用。
- **ϵ-差分隐私**:是一种针对给定非确定性查询的隐私度量。在数据发布场景中,添加噪声是实现 ϵ-差分隐私的主要方法之一,苹果公司就采用了这种匿名度量。
本文选择 k-匿名作为度量,主要原因是其具有更好的可解释性。例如,仅通过输出的表格数据集就能展示 k-匿名性,而很难证明一个给定的数据集是 ϵ-差分隐私机制的输出。此外,k-匿名在数据发布中具有主导作用,这也是一些发布机构采用它进行隐私评估的原因之一。
### 1.2 k-匿名与机器学习
#### 以往研究
k-匿名化的一个主要主题是效用和隐私之间的权衡。在 k-匿名化数据集上进行机器学习时,效用通常被视为在该数据集上训练的模型的泛化性能。
自 2002 年 Iyenger 开始研究保留效用的 k-匿名化方法以来,许多 k-匿名化方法被提出并应用于各种学习算法,如决策树、朴素贝叶斯、逻辑回归、线性支持向量机、k-近邻以及一些集成方法。
以下是使用成人数据集时,模型在匿名化数据集和原始数据集上的准确率得分差异:
| Paper | Attributes | QIs | k | Model | Accuracy (Original) | Accuracy (k-anonymized) | Difference |
| --- | --- | --- | --- | --- | --- | --- | --- |
| [11] | 9 | 8 | 25 | DT | 0.829 | 0.820 - 0.825 | <0.01 |
| [8,9] | 15 | 9 | 20 | DT | 0.853 | 0.845 - 0.850 | <0.01 |
| [13] | 15 | 14 | 20 | DT | 0.853 | 0.845 - 0.850 | <0.01 |
| [13] | 15 | 14 | 20 | LR | 0.8692 | 0.8480 | 0.0212 |
| [10] | 15 | 8 | 32 | Linear-SVM | 0.84 - 0.85 | 0.81 - 0.82 | 0.02 - 0.04 |
| [10] | 15 | 8 | 32 | RBF-SVM | 0.82 - 0.83 | 0.82 - 0.83 | <0.01 |
| [17] | 15 | 6 | 20 | k-NN | 0.8463 | 0.8415 | <0.01 |
从这个表格可以看出,至少在选择成人数据集时,k-匿名化对准确率得分没有负面影响。Rodríguez-Hoyos 等人指出,k-匿名化可能起到了去除噪声的作用,从而保留了机器学习的宏观趋势。
#### 效用问题
然而,有研究报告称 k-匿名化对少数类的 F 分数有负面影响。例如,在成人数据集上,原始梯度提升分类器少数类的 F 分数在 (0.71, 0.72) 区间内,而在 k = 19 的 k-匿名化数据集上训练的模型,少数类的 F 分数低于 0.55。这表明在 k-匿名化数据集上训练的模型预测可能偏向多数类。
#### 隐私问题
另一个问题是如何避免直接发布目标变量的值。在大多数以往研究中,目标属性通常被视为敏感属性,但这种定义可能会因对攻击者背景知识的假设而导致隐私泄露。
## 2. 我们的方法
### 2.1 符号和设置
#### 表格数据集和 k-匿名
本文仅处理表格数据集,相关定义如下:
- **表格数据集**:一个表格数据集 T 是一个矩阵 (cij)i∈I,j∈J,其中 cij 可以是实数、字符串或缺失值(用 n/a 表示)。I 是记录集,J 是属性集。对于 j ∈ J,如果对于每个 i,cij 是实数或 n/a,则称 j 是数值属性;否则称 j 是分
0
0
复制全文
相关推荐










