文库搜索
切换导航
首页
频道
法律法规库
安全标准库
行业政策库
安全研究库
项目案例库
会员中心
首页
法律法规库
安全标准库
行业政策库
安全研究库
项目案例库
上传文档
会员中心
个人信息去标识化探讨 金涛 全国信安标委大数据安全标准特别工作组 大数据系统软件国家工程实验室 清华大学软件学院 2018年6月8日 《网络安全法》要求 第十八条 国家鼓励开发网络数 据安全保护和利用技术,促进 公共数据资源开放,推动技术 创新和经济社会发展。 第四十二条 网络运营者不得泄露、篡改、毁损其收集的 个人信息;未经被收集者同意,不得向他人提供个人信息。 但是,经过处理无法识别特定个人且不能复原的除外。 “匿名化”出现6次 “去标识化”总计出现12次 标识符概念 • 标识符 identifier • 微数据中的一个或多个属性,可以实现对个人信息主体的唯一识别。 • 直接标识符 direct identifier • 微数据中的属性,在特定环境下可以单独识别个人信息主体。例如:姓名、身份证号、护照号、 驾照号、地址、电子邮件地址、电话号码、传真号码、银行卡号码、车牌号码、车辆识别号码、 社会保险号码、健康卡号码、病历号码、设备标识符、生物识别码、互联网协议(IP)地址号和 网络通用资源定位符(URL)等。 • 注:特定环境指个人信息使用的具体场景。比如,在一个具体的学校,通过学号可以直接识别出 一个具体的学生。 • 准标识符 quasi-identifier • 微数据中的属性,结合其它属性可唯一识别个人信息主体。比如:性别、出生日期或年龄、事件 日期(例如入院、手术、出院、访问)、地点(例如邮政编码、建筑名称、地区)、族裔血统、 出生国、语言、原住民身份、可见的少数民族地位、职业、婚姻状况、受教育水平、上学年限、 犯罪历史、总收入和宗教信仰等。 去标识化与脱敏的区别 ISO/IEC 20889 ISO/IEC 27038 Information technology - Security Information technology — Security techniques -- Privacy enhancing techniques — Specification for data de-identification techniques 遮蔽 digital redaction 去标识化 删除 脱敏 de-identification …… redaction 标识信息 敏感信息 去标识化核心任务 • 降低区分度 • 断开和个人信息主体的关联 识别是特定人的信息 识别是同一个人的信息 个人信息主体 不能识别是同一个人的信息 常用去标识化技术和模型 统计 加密 抑制 假名 泛化 随机 合成 K匿名 差分隐私 统计技术(Statistical techniques) • 数据抽样(Sampling) • 因为是部分数据,无法确定主体是否被抽中 • 数据聚合(Aggregation) • 统计结果,无个体信息 密码技术(Cryptographic techniques) • 确定性加密(Deterministic encryption) • 保序加密(Order-preserving encryption) • 保留格式加密(Format-preserving encryption) • 同态加密(Homomorphic encryption) • 同态秘密共享(Homomorphic secret sharing) 抑制技术(Suppression techniques) • 屏蔽(Masking) • 局部抑制(Local suppression) • 记录抑制(Record suppression) 440524188*****0014 假名化技术(Pseudonymization techniques) • 独立于标识符的假名创建 • 基于密码技术的标识符派生假名创建 泛化技术(Generalization techniques) • 取整(Rounding) • 如果取整基数为10,观察值为7,应将7向上取整至10,概率为 0.7,若向下取整至0,概率为0.3。 • 顶层与底层编码(Top and bottom coding) • 如果一个人的薪水非常高,则可将该用户的薪水值设置为“高 于X元” 随机化技术(Randomization techniques) • 噪声添加(Noise addition) • 置换(Permutation) • 微聚集(Microaggregation) 数据合成技术(Synthetic data) • 根据需要,按照原始数据的特征生成数据 按特 配置 征生 数据特 成数 征分析 据 数据 输入 K-匿名模型(K-anonymity model) • K-匿名模型要求发布的数据中,指定标识符(直接标识 符或准标识符)属性值相同的每一等价类至少包含K个记 录,使攻击者不能判别出个人信息所属的具体个体,从 而保护了个人信息安全。 • L-多样性(L-diversity) • T-接近性(T-closeness) 差分隐私模型(Differential privacy model) • 差分隐私确保数据集中任何特定的个人信息主体的存在 与否无法从去标识化数据集或系统响应中推导出。 • 服务器模式(Server model) • 本地模式(Local model) 姓名 年龄 心脏病 Alice 31 Yes Cici 72 No Dave 46 Yes Emily 78 Yes … … … 选择去标识化模型技术 • 是否需要对重标识风险进行量化;聚合数据是否够用;数据是否可删除; • 是否需要保持唯一性;是否需要满足可逆性;是否需要保持原有数据值顺序; • 是否需要保持原有数据格式,如数据类型、长度等保持不变; • 是否需要保持统计特征,如平均值、总和值、最大值、最小值等; • 是否需要保持关系型数据库中的实体完整性、参照完整性或用户自定义完整性; • 是否可以更改数据类型,比如在针对字符串类型的“性别”(男/女)进行去标识化时,是 否可以变成数字类型表示(1/0); • 是否需要满足至少若干个属性值相同,以加强数据的不可区分性; • 是否可以对属性值实施随机噪声添加,对属性值做微小变化; • 去标识化的成本约束。 • …… 参数设置 • 美国加拿大重标识阈值一般:0.33 • 默认值:0.2 • HIPAA: 20K rule • Census Bureau: 100k rule • Statistics Canada: 70k rule • British census: 120k rule De-identification Maturity Model 去标识化场景 去标识化 结果数据 去标识 化对象 去标识化 个人信息主体 数据接收者 重标识 结果导向——防范重标识风险 重标识方法 • 分离:将属于同一个个人信息主体的所有记录提取出来。 • 关联:将不同数据集中关于相同个人信息主体的信息联系起来。 • 推断:通过其它属性的值以一定概率判断出一个属性的值。 重标识攻击 • 重标识一条记录属于一个特定个人信息主体 • 重标识一条特定记录的个人信息主体 • 尽可能多的将记录和其对应的个人信息主体关联 • 判定一个特定的个人信息主体在数据集中是否存在 • 推断和一组其它属性关联的敏感属性 去标识化过程—确定目标 确定去标识化对象 建立安全目标 • 重标识风险阈值 • 有用性阈值 制定工作计划 去标识化过程—识别标识 查表识别法 规则判定法 人工分析法 去标识化过程—处理标识 预处理 选择模型技术 • 是否需要对重标识风险进行量化;聚合数据是否够用;数据是否可删除; • 是否需要保持唯一性;是否需要满足可逆性;是否需要保持原有数据值顺序; • 是否需要保持原有数据格式,如数据类型、长度等保持不变;是否需要保持统计特征,如平均值、 总和值、最大值、最小值等;是否需要保持关系型数据库中的实体完整性、参照完整性或用户自定 义完整性;是否可以更改数据类型,比如在针对字符串类型的“性别”(男/女)进行去标识化时, 是否可以变成数字类型表示(1/0); • 是否需要满足至少若干个属性值相同,以加强数据的不可区分性;是否可以对属性值实施随机噪声 添加,对属性值做小变化;去标识化的成本约束。 实施去标识化 去标识化过程—验证批准 验证个人信息安全 验证数据有用性 评审批准去标识化工作 去标识化过程—监控审查 监控审查去标识化步骤 持续监控去标识化效果 去标识化面临的挑战 聚合技术的挑战 高维数据的挑战 关联数据的挑战 组合的挑战 增量去标识化的挑战 谢谢! 敬请领导和专家批评指正!
2016-北京市政务信息安全事件应急演练指南
行业政策库
>
地方政府机构
>
北京市政策文件-市经信局
>
文档预览
44 页
0 下载
34 浏览
0 评论
0 收藏
3.0分
温馨提示:如果当前文档出现乱码或未能正常浏览,请先下载原文档进行浏览。
下载文档到电脑,方便使用
下载文档
还有
39
页可预览,
继续阅读
本文档由
张玉竹
于
2022-04-08 09:22:11
上传分享
举报
下载
原文档
(367.20 KB)
收藏
分享
给文档打分
您好可以输入
255
个字符
安信天行文库的中文名是什么?( 答案:
安信天行
)
评论列表
暂时还没有评论,期待您的金玉良言
最新文档
附件及说明-共性平台列表
附件及说明-4绩效评估-项目绩效评估导出文件模板
附件及说明-4绩效评估-单位绩效评估导出文件模板
附件及说明-3验收报备-验收报备项目基本情况信息表
附件及说明-3验收报备-验收报备项目材料填报要求
附件及说明-2前置评审-在线填报说明-前置评审
附件及说明-2前置评审-2018年-XX项目-需求确认表
附件及说明-2前置评审-2018年-XX项目-信息资源共享开放情况表
附件及说明-2前置评审-2018年-XX项目-申报书
附件及说明-2前置评审-2018年-XX项目-经费表
1
/
44
评价文档
0 个金币
下载文档(367.20 KB)
回到顶部
×
下载提示
文档下载,需要消耗您
0
个金币。
您确定要下载
2016-北京市政务信息安全事件应急演练指南
文档吗?
×
分享,让知识传承更久远
×
文档举报
举报原因:
垃圾广告
淫秽色情
虚假中奖
敏感信息
人身攻击
骚扰他人
×
收藏文档
收藏文档
请选择收藏夹
请选择收藏夹
没有合适的收藏夹?去
创建收藏夹