数据脱敏介绍

百度百科对数据脱敏的定义为：指对某些敏感信息通过脱敏规则进行数据的变形，实现敏感隐私数据的可靠保护。这样，就可以在开发、测试和其它非生产环境以及外包环境中安全地使用脱敏后的真实数据集。

查询密码、取款密码、登录密码等 )、组织机构名称、营业执照号码、银行帐号、交易日期、交易金额等。

用户的精准定位,大数据中蕴藏的巨大商业价值被逐步挖掘出来,但是同时也带来了巨大的挑战--个人隐私信息的保护。个人信息与个人行为(比如位置信息、消费行为、网络访问行为)等，这些都是人的隐私，也是我们所关注的一类敏感信息，在大数据价值挖掘的基础上如何保护人的隐私信息，也将是数据脱敏必须解决的难题。

分类为可恢复与不可恢复两类。

生成算法两大类。替换算法即将需要脱敏的部分使用定义好的字符或字符串替换，生成类算法则更复杂一些，要求脱敏后的数据符合逻辑规则，即是“看起来很真实的假数据”。

解决测试、开发库需要生产库的数据量与数据间的关联，以排查问题或进行数据分析等，但又不能将敏感数据存储于非生产环境的问题。

解决在生产环境需要根据不同情况对同一敏感数据读取时需要进行不同级别脱敏的问题。

结构化的格式存储，每个表有诸多行组成，每行数据有诸多列组成。根据列的数据属性，数据列通常可以分为以下几种类型：

用户敏感信息的列，如交易数额，疾病以及收入等。
用户敏感信息的列。

用户，达到保证数据安全与最大化挖掘数据价值的平衡。

包括：

属性泄露，当数据使用人员根据其访问的数据表了解到某个人新的属性信息时，称为属性泄露。个人标识泄露肯定会导致属性泄露，但属性泄露也有可能单独发生。
属性泄露肯定意味着成员关系泄露，但成员关系泄露也有可能单独发生。

用户。但是攻击者还是有可能通过多个半标识列的属性值识别个人。攻击者可能通过社工（知道某个人的姓名，邮编，生日，性别等）或是其他包含个人信息的以开放数据库获得特定个人的半标识列属性值，并与大数据平台数据进行匹配，从而得到特定个人的敏感信息。如表一所示，如果攻击者知道某用户的邮编和年龄，就可以得到该用户的疾病敏感信息。为了避免这种情况的发生，通常需要对半标识列进行脱敏处理，如数据泛化等。数据泛化是将半标识列的数据替换为语义一致但更通用的数据，已上述数据为例，对邮编和年龄泛化后的数据如表二所示。

属性值相同，所有半标识列属性值相同的行的集合被称为相等集。例如，表二中1，2，3行是一个相等集，4，5，6行也是一个相等集。Sama- rati and Sweeney[4]引入了K-Anonymity用于衡量个人标识泄露的风险。 K-Anonymity定义如下：

数量不小于k，即至少有k-1条纪录半标识列属性值与该条纪录相同。

一个3-Anonymity的数据集。作为一个衡量隐私数据泄露风险的指标，K-Anonymity可用于衡量个人标识泄露的风险，理论上来说，对于K-Anonymity数据集，对于任意纪录，攻击者只有1/k的概率将该纪录与具体用户关联。

diversity

属性泄露的风险。对于K-Anonymity的数据集，攻击者可能通过同质属性攻击与背景知识攻击两种方式攻击用户的属性信息。

属性攻击。对于图二半标识列泛化后的数据集，假如攻击者知道Bob邮编为47677，年龄为29，则Bob一定对应于前面三条记录，从而可以确定Bob有心脏病。

diversity用于衡量属性泄露的风险，L-diversity定义如下：

一个3-Anonymity 2-diversity的数据集如表三所示：

属性数据泄露的风险。对于满足L-diversity的数据集，理论上，攻击者最多只有1/L的概率能够属性泄露攻击，将特定用户与其敏感信息关联起来。一般来说是通过插入干扰数据构造符合L-diversity标准的数据集，但是同数据泛化一样，插入干扰数据也会导致表级别的信息丢失。同时L-diversity标准也有不足之处。

diversity标准有可能很难或是没有必要实现。例如，对于HIV的测试数据，测试结果列可能为阴性或是阳性。对于10000条记录，可能99%的记录都是阴性的，只有1%是阳性的。对于用户来说两种不同的测试结果敏感程度也是不同的，测试结果为阴性的用户可能不介意其他人看到他的测试结果，但是测试结果为阳性的用户可能更希望对别人保密。为了生成2-Deversity的测试数据集，会丢失大量的信息，降低数据分析挖掘的价值。
diversity标准无法防御特定类型的属性数据泄露。
- 属性分布存在倾斜，L-diversity标准很有可能无法抵御属性数据泄露。继续以HIV测试数据为例，假如构造的数据集对于任意相等类测试结果都包含阴性与阳性，且阴性数量与阳性相同，该数据集肯定满足2-diversity。按照真实测试记录的分布，对于任意个人，攻击者只能判断其有1%的可能测试结果为阳性。但是对于2-diversity数据集，攻击者会判断每个人有50%的可能测试结果为阳性。
- 属性分布满足L-diversity，但是属性值相似或是内聚，攻击者有可能从得到很重要的信息。例如对于表四所示，病人数据满足3-diversity，攻击者如果了解Bob邮编为47677，年龄为29，则可以确认Bob的工资收入在3-5K之间，且能确认Bob得了胃病相关的病，因为前三条的病都和胃病相关。
- diversity相同的相等集，敏感属性值的分布信息对于保护属性泄露至关重要。L-diversity只是用来衡量相等集的不同属性值数量，并没有衡量不同属性值的分布，所以其在衡量属性泄露风险上仍有不足之处。
  
  ness
  
  用户的半标识列的信息，攻击者可以将某用户与某相等集联系在一起，通过该相等集的敏感数据分布信息P，攻击者更新后的个人信息为B2.
  
  diversity约束是通过约束P的diverisity属性，尽量减少B0和B2之间的信息量差距，差距越小，说明隐私信息泄露越少。T-Closeness约束则期望减少B1和B2之间的信息量差距，减少攻击者从敏感数据的全局分布信息和相等集分布信息之间得到更多的个人隐私信息。T-Closeness的定义如下：
  
  一个相等类的敏感数据的分布与敏感数据的全局分布之间的距离小于T，则称该相等类满足T-Closeness约束。如果数据集中的所有相等类都满足T-Closeness，则称该数据集满足T-Closeness.
  
  ness约束限定了半标识列属性与敏感信息的全局分布之间的联系，减弱了半标识列属性与特定敏感信息的联系，减少攻击者通过敏感信息的分布信息进行属性泄露攻击的可能性。不过同时也肯定导致了一定程度的信息丢失，所以管理者通过T值的大小平衡数据可用性与用户隐私保护。
  
  diversity和T-Closeness均依赖对半标识列进行数据变形处理，使得攻击者无法直接进行属性泄露攻击，常见的数据变形处理方式如下：
  用户隐私数据保护与挖掘用户数据价值是两个互相冲突的矛盾体，彻底的数据脱敏，需要抹去全部的用户标识信息，使得数据潜在的分析价值大大降低。另一方面，完全保留用户隐私数据信息，可最大化数据的分析价值，同时导致用户隐私泄露的风险无法控制。因此大数据脱敏平台的设计目标并不是实现工具算法用来完全抹去全部的用户标识信息，而是包括如下几个目标：
  1. 用户隐私数据泄露风险的衡量模型，可定性定量的准确衡量数据可能发生泄露的风险。
  2. 用户认证体系，权限管理体系，以及隐私数据不同保护级别的权限管理体系，实现对隐私数据基于审批的数据访问机制。结合公司制度，规范，法务等管理，实现在尽可能保护用户隐私数据，减少数据泄露风险的前提下，最大化保留数据分析挖掘的价值。
  包括静态大数据脱敏平台和动态大数据脱敏平台，所谓静态和动态之分，主要在于脱敏的时机不同。对于静态脱敏来说，数据管理员提前对数据进行不同级别的脱敏处理，生成不同安全级别的数据，然后授予不同用户访问不同安全级别数据的权限。对于动态脱敏来说，管理员通过元数据管理不同用户访问具体数据的安全权限，在用户访问数据的时候，动态的从原始数据中按照用户权限动态的进行脱敏处理。大数据平台脱敏技术方案是一个非常有趣的课题，目前业界还没有看到有成熟的方案，鉴于其对数据安全和数据价值的作用，非常值得深入研究，希望以后可以继续以合适的方式分享我在这方面的研究与实践。

diversity

ness

相关推荐