个人信息去标识化探讨 金涛 全国信安标委大数据安全标准特别工作组 大数据系统软件国家工程实验室 清华大学软件学院 2018年6月8日 《网络安全法》要求 第十八条 国家鼓励开发网络数 据安全保护和利用技术,促进 公共数据资源开放,推动技术 创新和经济社会发展。 第四十二条 网络运营者不得泄露、篡改、毁损其收集的 个人信息;未经被收集者同意,不得向他人提供个人信息。 但是,经过处理无法识别特定个人且不能复原的除外。 “匿名化”出现6次 “去标识化”总计出现12次 标识符概念 • 标识符 identifier • 微数据中的一个或多个属性,可以实现对个人信息主体的唯一识别。 • 直接标识符 direct identifier • 微数据中的属性,在特定环境下可以单独识别个人信息主体。例如:姓名、身份证号、护照号、 驾照号、地址、电子邮件地址、电话号码、传真号码、银行卡号码、车牌号码、车辆识别号码、 社会保险号码、健康卡号码、病历号码、设备标识符、生物识别码、互联网协议(IP)地址号和 网络通用资源定位符(URL)等。 • 注:特定环境指个人信息使用的具体场景。比如,在一个具体的学校,通过学号可以直接识别出 一个具体的学生。 • 准标识符 quasi-identifier • 微数据中的属性,结合其它属性可唯一识别个人信息主体。比如:性别、出生日期或年龄、事件 日期(例如入院、手术、出院、访问)、地点(例如邮政编码、建筑名称、地区)、族裔血统、 出生国、语言、原住民身份、可见的少数民族地位、职业、婚姻状况、受教育水平、上学年限、 犯罪历史、总收入和宗教信仰等。 去标识化与脱敏的区别 ISO/IEC 20889 ISO/IEC 27038 Information technology - Security Information technology — Security techniques -- Privacy enhancing techniques — Specification for data de-identification techniques 遮蔽 digital redaction 去标识化 删除 脱敏 de-identification …… redaction 标识信息 敏感信息 去标识化核心任务 • 降低区分度 • 断开和个人信息主体的关联 识别是特定人的信息 识别是同一个人的信息 个人信息主体 不能识别是同一个人的信息 常用去标识化技术和模型 统计 加密 抑制 假名 泛化 随机 合成 K匿名 差分隐私 统计技术(Statistical techniques) • 数据抽样(Sampling) • 因为是部分数据,无法确定主体是否被抽中 • 数据聚合(Aggregation) • 统计结果,无个体信息 密码技术(Cryptographic techniques) • 确定性加密(Deterministic encryption) • 保序加密(Order-preserving encryption) • 保留格式加密(Format-preserving encryption) • 同态加密(Homomorphic encryption) • 同态秘密共享(Homomorphic secret sharing) 抑制技术(Suppression techniques) • 屏蔽(Masking) • 局部抑制(Local suppression) • 记录抑制(Record suppression) 440524188*****0014 假名化技术(Pseudonymization techniques) • 独立于标识符的假名创建 • 基于密码技术的标识符派生假名创建 泛化技术(Generalization techniques) • 取整(Rounding) • 如果取整基数为10,观察值为7,应将7向上取整至10,概率为 0.7,若向下取整至0,概率为0.3。 • 顶层与底层编码(Top and bottom coding) • 如果一个人的薪水非常高,则可将该用户的薪水值设置为“高 于X元” 随机化技术(Randomization techniques) • 噪声添加(Noise addition) • 置换(Permutation) • 微聚集(Microaggregation) 数据合成技术(Synthetic data) • 根据需要,按照原始数据的特征生成数据 按特 配置 征生 数据特 成数 征分析 据 数据 输入 K-匿名模型(K-anonymity model) • K-匿名模型要求发布的数据中,指定标识符(直接标识 符或准标识符)属性值相同的每一等价类至少包含K个记 录,使攻击者不能判别出个人信息所属的具体个体,从 而保护了个人信息安全。 • L-多样性(L-diversity) • T-接近性(T-closeness) 差分隐私模型(Differential privacy model) • 差分隐私确保数据集中任何特定的个人信息主体的存在 与否无法从去标识化数据集或系统响应中推导出。 • 服务器模式(Server model) • 本地模式(Local model) 姓名 年龄 心脏病 Alice 31 Yes Cici 72 No Dave 46 Yes Emily 78 Yes … … … 选择去标识化模型技术 • 是否需要对重标识风险进行量化;聚合数据是否够用;数据是否可删除; • 是否需要保持唯一性;是否需要满足可逆性;是否需要保持原有数据值顺序; • 是否需要保持原有数据格式,如数据类型、长度等保持不变; • 是否需要保持统计特征,如平均值、总和值、最大值、最小值等; • 是否需要保持关系型数据库中的实体完整性、参照完整性或用户自定义完整性; • 是否可以更改数据类型,比如在针对字符串类型的“性别”(男/女)进行去标识化时,是 否可以变成数字类型表示(1/0); • 是否需要满足至少若干个属性值相同,以加强数据的不可区分性; • 是否可以对属性值实施随机噪声添加,对属性值做微小变化; • 去标识化的成本约束。 • …… 参数设置 • 美国加拿大重标识阈值一般:0.33 • 默认值:0.2 • HIPAA: 20K rule • Census Bureau: 100k rule • Statistics Canada: 70k rule • British census: 120k rule De-identification Maturity Model 去标识化场景 去标识化 结果数据 去标识 化对象 去标识化 个人信息主体 数据接收者 重标识 结果导向——防范重标识风险 重标识方法 • 分离:将属于同一个个人信息主体的所有记录提取出来。 • 关联:将不同数据集中关于相同个人信息主体的信息联系起来。 • 推断:通过其它属性的值以一定概率判断出一个属性的值。 重标识攻击 • 重标识一条记录属于一个特定个人信息主体 • 重标识一条特定记录的个人信息主体 • 尽可能多的将记录和其对应的个人信息主体关联 • 判定一个特定的个人信息主体在数据集中是否存在 • 推断和一组其它属性关联的敏感属性 去标识化过程—确定目标 确定去标识化对象 建立安全目标 • 重标识风险阈值 • 有用性阈值 制定工作计划 去标识化过程—识别标识 查表识别法 规则判定法 人工分析法 去标识化过程—处理标识 预处理 选择模型技术 • 是否需要对重标识风险进行量化;聚合数据是否够用;数据是否可删除; • 是否需要保持唯一性;是否需要满足可逆性;是否需要保持原有数据值顺序; • 是否需要保持原有数据格式,如数据类型、长度等保持不变;是否需要保持统计特征,如平均值、 总和值、最大值、最小值等;是否需要保持关系型数据库中的实体完整性、参照完整性或用户自定 义完整性;是否可以更改数据类型,比如在针对字符串类型的“性别”(男/女)进行去标识化时, 是否可以变成数字类型表示(1/0); • 是否需要满足至少若干个属性值相同,以加强数据的不可区分性;是否可以对属性值实施随机噪声 添加,对属性值做小变化;去标识化的成本约束。 实施去标识化 去标识化过程—验证批准 验证个人信息安全 验证数据有用性 评审批准去标识化工作 去标识化过程—监控审查 监控审查去标识化步骤 持续监控去标识化效果 去标识化面临的挑战 聚合技术的挑战 高维数据的挑战 关联数据的挑战 组合的挑战 增量去标识化的挑战 谢谢! 敬请领导和专家批评指正!

pdf文档 2016-北京市政务信息安全事件应急演练指南

行业政策库 > 地方政府机构 > 北京市政策文件-市经信局 > 文档预览
44 页 0 下载 34 浏览 0 评论 0 收藏 3.0分
温馨提示:如果当前文档出现乱码或未能正常浏览,请先下载原文档进行浏览。
2016-北京市政务信息安全事件应急演练指南 第 1 页 2016-北京市政务信息安全事件应急演练指南 第 2 页 2016-北京市政务信息安全事件应急演练指南 第 3 页 2016-北京市政务信息安全事件应急演练指南 第 4 页 2016-北京市政务信息安全事件应急演练指南 第 5 页
下载文档到电脑,方便使用
还有 39 页可预览,继续阅读
本文档由 张玉竹2022-04-08 09:22:11上传分享
给文档打分
您好可以输入 255 个字符
安信天行文库的中文名是什么?( 答案:安信天行 )
评论列表
  • 暂时还没有评论,期待您的金玉良言