个人与商业数据的保密性保护策略
在数据时代,数据的保密性保护至关重要。无论是个人数据还是商业数据,都面临着不同的保密挑战。下面将详细介绍几种常见的数据保密方法及其应用场景。
远程分析
在商业数据研究中,用于研究的商业数据集通常会移除大型企业(除其他保密保护措施外),完整的商业数据集一般不对外提供研究使用。而远程分析范式在这种情况下具有一定的吸引力,因为它可以将大型企业纳入分析,且只需对分析结果进行保密处理。
- 与传统统计披露控制(SDC)方法对比 :以糖厂业务数据为例,传统SDC方法会从数据集中删除五个大型农场,而远程分析则保留这些大型农场。不过,远程分析需要对结果进行平滑和修剪,包括从分析输出和输出图中移除异常值,但这些移除的异常值不一定对应大型农场。
- SDC方法的特点及后果
- 删除大型农场:使模型仅针对中小型农场,导致中位数相似,但均值和方差减小。
- 添加噪声:导致显著的信息损失。
- 区域分类:为降低身份披露风险对区域进行分组,导致显著的信息损失,在探索性数据分析中,分析师可用的信息显著恶化;在糖厂数据的回归分析中,会得出关于变量显著性的错误结论。
- 远程分析方法的特点及后果 :对显示结果进行平滑和修剪,以不暴露异常值和单个值,这意味着呈现给分析师的结果与实际分析不完全对应。从残差图中移除异常点可以标明,使分析师知道模型存在异常残差值,但无法了解其大小或影响。
远程