2016-北京市政务信息安全事件应急演练指南

个人信息去标识化探讨金涛全国信安标委大数据安全标准特别工作组大数据系统软件国家工程实验室清华大学软件学院 2018年6月8日《网络安全法》要求第十八条国家鼓励开发网络数据安全保护和利用技术，促进公共数据资源开放，推动技术创新和经济社会发展。第四十二条网络运营者不得泄露、篡改、毁损其收集的个人信息；未经被收集者同意，不得向他人提供个人信息。但是，经过处理无法识别特定个人且不能复原的除外。 “匿名化”出现6次 “去标识化”总计出现12次标识符概念 • 标识符　identifier • 微数据中的一个或多个属性，可以实现对个人信息主体的唯一识别。 • 直接标识符　direct identifier • 微数据中的属性，在特定环境下可以单独识别个人信息主体。例如：姓名、身份证号、护照号、驾照号、地址、电子邮件地址、电话号码、传真号码、银行卡号码、车牌号码、车辆识别号码、社会保险号码、健康卡号码、病历号码、设备标识符、生物识别码、互联网协议（IP）地址号和网络通用资源定位符（URL）等。 • 注：特定环境指个人信息使用的具体场景。比如，在一个具体的学校，通过学号可以直接识别出一个具体的学生。 • 准标识符　quasi-identifier • 微数据中的属性，结合其它属性可唯一识别个人信息主体。比如：性别、出生日期或年龄、事件日期（例如入院、手术、出院、访问）、地点（例如邮政编码、建筑名称、地区）、族裔血统、出生国、语言、原住民身份、可见的少数民族地位、职业、婚姻状况、受教育水平、上学年限、犯罪历史、总收入和宗教信仰等。去标识化与脱敏的区别 ISO/IEC 20889 ISO/IEC 27038 Information technology - Security Information technology — Security techniques -- Privacy enhancing techniques — Specification for data de-identification techniques 遮蔽 digital redaction 去标识化删除脱敏 de-identification …… redaction 标识信息敏感信息去标识化核心任务 • 降低区分度 • 断开和个人信息主体的关联识别是特定人的信息识别是同一个人的信息个人信息主体不能识别是同一个人的信息常用去标识化技术和模型统计加密抑制假名泛化随机合成 K匿名差分隐私统计技术（Statistical techniques） • 数据抽样（Sampling） • 因为是部分数据，无法确定主体是否被抽中 • 数据聚合（Aggregation） • 统计结果，无个体信息密码技术（Cryptographic techniques） • 确定性加密（Deterministic encryption） • 保序加密（Order-preserving encryption） • 保留格式加密（Format-preserving encryption） • 同态加密（Homomorphic encryption） • 同态秘密共享（Homomorphic secret sharing）抑制技术（Suppression techniques） • 屏蔽（Masking） • 局部抑制（Local suppression） • 记录抑制（Record suppression） 440524188*****0014 假名化技术（Pseudonymization techniques） • 独立于标识符的假名创建 • 基于密码技术的标识符派生假名创建泛化技术（Generalization techniques） • 取整（Rounding） • 如果取整基数为10，观察值为7，应将7向上取整至10，概率为 0.7，若向下取整至0，概率为0.3。 • 顶层与底层编码（Top and bottom coding） • 如果一个人的薪水非常高，则可将该用户的薪水值设置为“高于X元” 随机化技术（Randomization techniques） • 噪声添加（Noise addition） • 置换（Permutation） • 微聚集（Microaggregation）数据合成技术（Synthetic data） • 根据需要，按照原始数据的特征生成数据按特配置征生数据特成数征分析据数据输入 K-匿名模型（K-anonymity model） • K-匿名模型要求发布的数据中，指定标识符（直接标识符或准标识符）属性值相同的每一等价类至少包含K个记录，使攻击者不能判别出个人信息所属的具体个体，从而保护了个人信息安全。 • L-多样性（L-diversity） • T-接近性（T-closeness）差分隐私模型（Differential privacy model） • 差分隐私确保数据集中任何特定的个人信息主体的存在与否无法从去标识化数据集或系统响应中推导出。 • 服务器模式（Server model） • 本地模式（Local model）姓名年龄心脏病 Alice 31 Yes Cici 72 No Dave 46 Yes Emily 78 Yes … … … 选择去标识化模型技术 • 是否需要对重标识风险进行量化；聚合数据是否够用；数据是否可删除； • 是否需要保持唯一性；是否需要满足可逆性；是否需要保持原有数据值顺序； • 是否需要保持原有数据格式，如数据类型、长度等保持不变； • 是否需要保持统计特征，如平均值、总和值、最大值、最小值等； • 是否需要保持关系型数据库中的实体完整性、参照完整性或用户自定义完整性； • 是否可以更改数据类型，比如在针对字符串类型的“性别”（男/女）进行去标识化时，是否可以变成数字类型表示（1/0）； • 是否需要满足至少若干个属性值相同，以加强数据的不可区分性； • 是否可以对属性值实施随机噪声添加，对属性值做微小变化； • 去标识化的成本约束。 • …… 参数设置 • 美国加拿大重标识阈值一般：0.33 • 默认值：0.2 • HIPAA: 20K rule • Census Bureau: 100k rule • Statistics Canada: 70k rule • British census: 120k rule De-identification Maturity Model 去标识化场景去标识化结果数据去标识化对象去标识化个人信息主体数据接收者重标识结果导向——防范重标识风险重标识方法 • 分离：将属于同一个个人信息主体的所有记录提取出来。 • 关联：将不同数据集中关于相同个人信息主体的信息联系起来。 • 推断：通过其它属性的值以一定概率判断出一个属性的值。重标识攻击 • 重标识一条记录属于一个特定个人信息主体 • 重标识一条特定记录的个人信息主体 • 尽可能多的将记录和其对应的个人信息主体关联 • 判定一个特定的个人信息主体在数据集中是否存在 • 推断和一组其它属性关联的敏感属性去标识化过程—确定目标确定去标识化对象建立安全目标 • 重标识风险阈值 • 有用性阈值制定工作计划去标识化过程—识别标识查表识别法规则判定法人工分析法去标识化过程—处理标识预处理选择模型技术 • 是否需要对重标识风险进行量化；聚合数据是否够用；数据是否可删除； • 是否需要保持唯一性；是否需要满足可逆性；是否需要保持原有数据值顺序； • 是否需要保持原有数据格式，如数据类型、长度等保持不变；是否需要保持统计特征，如平均值、总和值、最大值、最小值等；是否需要保持关系型数据库中的实体完整性、参照完整性或用户自定义完整性；是否可以更改数据类型，比如在针对字符串类型的“性别”（男/女）进行去标识化时，是否可以变成数字类型表示（1/0）； • 是否需要满足至少若干个属性值相同，以加强数据的不可区分性；是否可以对属性值实施随机噪声添加，对属性值做小变化；去标识化的成本约束。实施去标识化去标识化过程—验证批准验证个人信息安全验证数据有用性评审批准去标识化工作去标识化过程—监控审查监控审查去标识化步骤持续监控去标识化效果去标识化面临的挑战聚合技术的挑战高维数据的挑战关联数据的挑战组合的挑战增量去标识化的挑战谢谢！敬请领导和专家批评指正！