基于k-匿名的模型提取导向数据发布

# 基于 k-匿名的模型提取导向数据发布 ## 1. 相关工作 ### 1.1 k-匿名与差分隐私在数据匿名化领域，有两种广泛使用的尺度：k-匿名和 ϵ-差分隐私。 - **k-匿名**：最初由相关研究引入，旨在通过从原始数据集创建另一个数据集来防止重新识别。对于给定的一些属性（称为准标识符属性），如果对于任意给定的记录，至少存在 (k - 1) 条其他记录在这些准标识符属性上具有相同的值，则称该数据集满足 k-匿名。此匿名度量已在加拿大、韩国和英国的 NHS 等机构得到应用。 - **ϵ-差分隐私**：是一种针对给定非确定性查询的隐私度量。在数据发布场景中，添加噪声是实现 ϵ-差分隐私的主要方法之一，苹果公司就采用了这种匿名度量。本文选择 k-匿名作为度量，主要原因是其具有更好的可解释性。例如，仅通过输出的表格数据集就能展示 k-匿名性，而很难证明一个给定的数据集是 ϵ-差分隐私机制的输出。此外，k-匿名在数据发布中具有主导作用，这也是一些发布机构采用它进行隐私评估的原因之一。 ### 1.2 k-匿名与机器学习 #### 以往研究 k-匿名化的一个主要主题是效用和隐私之间的权衡。在 k-匿名化数据集上进行机器学习时，效用通常被视为在该数据集上训练的模型的泛化性能。自 2002 年 Iyenger 开始研究保留效用的 k-匿名化方法以来，许多 k-匿名化方法被提出并应用于各种学习算法，如决策树、朴素贝叶斯、逻辑回归、线性支持向量机、k-近邻以及一些集成方法。以下是使用成人数据集时，模型在匿名化数据集和原始数据集上的准确率得分差异： | Paper | Attributes | QIs | k | Model | Accuracy (Original) | Accuracy (k-anonymized) | Difference | | --- | --- | --- | --- | --- | --- | --- | --- | | [11] | 9 | 8 | 25 | DT | 0.829 | 0.820 - 0.825 | <0.01 | | [8,9] | 15 | 9 | 20 | DT | 0.853 | 0.845 - 0.850 | <0.01 | | [13] | 15 | 14 | 20 | DT | 0.853 | 0.845 - 0.850 | <0.01 | | [13] | 15 | 14 | 20 | LR | 0.8692 | 0.8480 | 0.0212 | | [10] | 15 | 8 | 32 | Linear-SVM | 0.84 - 0.85 | 0.81 - 0.82 | 0.02 - 0.04 | | [10] | 15 | 8 | 32 | RBF-SVM | 0.82 - 0.83 | 0.82 - 0.83 | <0.01 | | [17] | 15 | 6 | 20 | k-NN | 0.8463 | 0.8415 | <0.01 | 从这个表格可以看出，至少在选择成人数据集时，k-匿名化对准确率得分没有负面影响。Rodríguez-Hoyos 等人指出，k-匿名化可能起到了去除噪声的作用，从而保留了机器学习的宏观趋势。 #### 效用问题然而，有研究报告称 k-匿名化对少数类的 F 分数有负面影响。例如，在成人数据集上，原始梯度提升分类器少数类的 F 分数在 (0.71, 0.72) 区间内，而在 k = 19 的 k-匿名化数据集上训练的模型，少数类的 F 分数低于 0.55。这表明在 k-匿名化数据集上训练的模型预测可能偏向多数类。 #### 隐私问题另一个问题是如何避免直接发布目标变量的值。在大多数以往研究中，目标属性通常被视为敏感属性，但这种定义可能会因对攻击者背景知识的假设而导致隐私泄露。 ## 2. 我们的方法 ### 2.1 符号和设置 #### 表格数据集和 k-匿名本文仅处理表格数据集，相关定义如下： - **表格数据集**：一个表格数据集 T 是一个矩阵 (cij)i∈I,j∈J，其中 cij 可以是实数、字符串或缺失值（用 n/a 表示）。I 是记录集，J 是属性集。对于 j ∈ J，如果对于每个 i，cij 是实数或 n/a，则称 j 是数值属性；否则称 j 是分

最低0.47元/天解锁专栏

赠100次下载

继续阅读点击查看下一篇

400次会员资源下载次数

300万+ 优质博客文章

1000万+ 优质下载资源

1000万+ 优质文库回答

复制全文

基于k-匿名的模型提取导向数据发布

相关推荐

专栏目录

基于k-匿名的模型提取导向数据发布

相关推荐

k-匿名隐私保护 python实现

k-匿名隐私保护 python实现.rar

k-匿名数据上的聚集查询及其性质

似是而非的否认性限制与模型提取导向的k-匿名数据发布

构建高效数据模型：高校数据治理平台的数据建模技巧

【雷达信号分析：数据库数据挖掘实战】：深度提取数据价值

多维分析：数据中台数据模型统一视角下的10维透视

WinHex社交媒体取证分析：提取与解读隐藏数据的方法

【数据仓库数据模型设计】：星型模式vs雪花模式，哪款更适合你？

老年群体使用对话设备的数据洞察与目标导向需求工程本体进化

本博客会更正转载文章的错误 andriod || linux --- 热烈庆祝突破1000分

基于WEB的大学生心理咨询预约系统 互助社区交流系统 _毕业论文和答辩稿.zip

专栏目录

最新推荐

构建可扩展医疗设备集成方案：飞利浦监护仪接口扩展性深入解析

【调试与性能优化】：LMS滤波器在Verilog中的实现技巧

【BT-audio音频抓取工具比较】：主流工具功能对比与选择指南

【wxWidgets多媒体处理】：实现跨平台音频与视频播放

MATLAB程序设计模式优化：提升pv_matlab项目可维护性的最佳实践

【C#跨平台开发与Focas1_2 SDK】：打造跨平台CNC应用的终极指南

STM8点阵屏汉字显示：用户界面设计与体验优化的终极指南

【机器人灵巧手力控制技术】：精准操作的实现秘诀

【游戏物理引擎基础】：迷宫游戏中的物理效果实现

【Matlab编程工程案例】：Matlab编程在解决工程问题中的实际应用

基于WEB的大学生心理咨询预约系统互助社区交流系统 _毕业论文和答辩稿.zip