个人信息去标识化探讨 金涛 全国信安标委大数据安全标准特别工作组 大数据系统软件国家工程实验室 清华大学软件学院 2018年6月8日 《网络安全法》要求 第十八条  国家鼓励开发网络数 据安全保护和利用技术,促进 公共数据资源开放,推动技术 创新和经济社会发展。 第四十二条  网络运营者不得泄露、篡改、毁损其收集的 个人信息;未经被收集者同意,不得向他人提供个人信息。 但是,经过处理无法识别特定个人且不能复原的除外。 “匿名化”出现6次 “去标识化”总计出现12次 标识符概念 • 标识符 identifier • 微数据中的一个或多个属性,可以实现对个人信息主体的唯一识别。 • 直接标识符 direct identifier • 微数据中的属性,在特定环境下可以单独识别个人信息主体。例如:姓名、身份证号、护照号、 驾照号、地址、电子邮件地址、电话号码、传真号码、银行卡号码、车牌号码、车辆识别号码、 社会保险号码、健康卡号码、病历号码、设备标识符、生物识别码、互联网协议(IP)地址号和 网络通用资源定位符(URL)等。 • 注:特定环境指个人信息使用的具体场景。比如,在一个具体的学校,通过学号可以直接识别出 一个具体的学生。 • 准标识符 quasi-identifier • 微数据中的属性,结合其它属性可唯一识别个人信息主体。比如:性别、出生日期或年龄、事件 日期(例如入院、手术、出院、访问)、地点(例如邮政编码、建筑名称、地区)、族裔血统、 出生国、语言、原住民身份、可见的少数民族地位、职业、婚姻状况、受教育水平、上学年限、 犯罪历史、总收入和宗教信仰等。 去标识化与脱敏的区别 ISO/IEC 20889 Information technology - Security techniques -- Privacy enhancing data de-identification techniques 去标识化 de-identification 标识信息 遮蔽 删除 …… ISO/IEC 27038 Information technology — Security techniques — Specification for digital redaction 脱敏 redaction 敏感信息 去标识化核心任务 • 降低区分度 • 断开和个人信息主体的关联 识别是特定人的信息 识别是同一个人的信息 个人信息主体 不能识别是同一个人的信息 常用去标识化技术和模型 统计 加密 抑制 假名 泛化 随机 合成 K匿名 差分隐私 统计技术(Statistical techniques) • 数据抽样(Sampling) • 因为是部分数据,无法确定主体是否被抽中 • 数据聚合(Aggregation) • 统计结果,无个体信息 密码技术(Cryptographic techniques) • 确定性加密(Deterministic encryption) • 保序加密(Order-preserving encryption) • 保留格式加密(Format-preserving encryption) • 同态加密(Homomorphic encryption) • 同态秘密共享(Homomorphic secret sharing) 抑制技术(Suppression techniques) • 屏蔽(Masking) • 局部抑制(Local suppression) • 记录抑制(Record suppression) 440524188*****0014 假名化技术(Pseudonymization techniques) • 独立于标识符的假名创建 • 基于密码技术的标识符派生假名创建 泛化技术(Generalization techniques) • 取整(Rounding) • 如果取整基数为10,观察值为7,应将7向上取整至10,概率为 0.7,若向下取整至0,概率为0.3。 • 顶层与底层编码(Top and bottom coding) • 如果一个人的薪水非常高,则可将该用户的薪水值设置为“高 于X元” 随机化技术(Randomization techniques) • 噪声添加(Noise addition) • 置换(Permutation) • 微聚集(Microaggregation) 数据合成技术(Synthetic data) • 根据需要,按照原始数据的特征生成数据 配置 数据 输入 数据特 征分析 按特 征生 成数 据 K-匿名模型(K-anonymity model) • K-匿名模型要求发布的数据中,指定标识符(直接标识 符或准标识符)属性值相同的每一等价类至少包含K个记 录,使攻击者不能判别出个人信息所属的具体个体,从 而保护了个人信息安全。 • L-多样性(L-diversity) • T-接近性(T-closeness) 差分隐私模型(Differential privacy model) • 差分隐私确保数据集中任何特定的个人信息主体的存在 与否无法从去标识化数据集或系统响应中推导出。 • 服务器模式(Server model) • 本地模式(Local model) 姓名 Alice Cici Dave Emily … 年龄 31 72 46 78 … 心脏病 Yes No Yes Yes …

pdf文档 2018-《个人信息去标识化探讨》

安全研究库 > 安全文章摘录 > 安全文章摘录 > 文档预览
35 页 0 下载 31 浏览 0 评论 0 收藏 3.0分
温馨提示:如果当前文档出现乱码或未能正常浏览,请先下载原文档进行浏览。
2018-《个人信息去标识化探讨》 第 1 页 2018-《个人信息去标识化探讨》 第 2 页 2018-《个人信息去标识化探讨》 第 3 页 2018-《个人信息去标识化探讨》 第 4 页 2018-《个人信息去标识化探讨》 第 5 页
下载文档到电脑,方便使用
还有 30 页可预览,继续阅读
本文档由 张玉竹2022-04-08 09:22:11上传分享
给文档打分
您好可以输入 255 个字符
安信天行文库的中文名是什么?( 答案:安信天行 )
评论列表
  • 暂时还没有评论,期待您的金玉良言