从微观到宏观 大数据如何改变安全 WHY BIG DATA 我们面对的是什么 2015 - Kaspersky (Duqu 2.0) 2015 - Hacking Team 2014 – SONY 2014 - APPLE 2014 - JP MORGAN CHASE 2014 - Target 2014年79790家公司被黑泄漏数据; 2122家公司公开确认信息被窃取; 500强企业超过半数; 60% 的案例里,攻击者仅需要几分钟就可以 的手; • 70%-90%的样本都是有针对性的; • 75%的攻击会在24小时内从一个受害者快速 扩展到其他受害者。 • • • • --《2015 DBIR》 特征码技术很难有效检测当前威胁 92 成功的攻击中, 92%是由于外部 攻击者 《DBIR2013》 87 54 攻击大多不能通 过现有安全设备 发现,87%源自 外部的报告 互联网上的传播 的病毒,54%不 能通过AV检测 《DBIR2013》 NTT Group 以边界安全为主构建的体系已经失效  面对当今主流的定向攻击,任何单一化的检测均不能达到理想的检 测效果,立体检测是必然选择。 网络 信誉情报 检测 纬度 数据探索 文件 数据挖掘 异常检测 终端 沙箱检测 攻击特征 攻击前 期 攻击中 期 攻击过程 攻击后 期 检测技术 回归更高级威胁的本质 来源:DBIR2013 初步得手 数据泄露 检测发现 缓解措施 秒 分钟 小时 天 周 月 年 传统安全设备从本地网络 或终端数据中发现未知威 胁,对于互联网而言,仿 佛研究森林中的一片叶子。 叶子 (1:本地数据) 与森林 (N:互联网数据) 的关系 • 时间(Time(N) 早于 Time(1)) • • 关联(1+N>>1) • • 今天特定客户的未知威胁往往 昨天就在互联网上存在 将本地数据与互联网海量多维 信息进行关联分析,效果会远 远超过单单研究1 普适(N=1+1+1+…+1) • 针对互联网海量多维信息,采 用机器学习挖掘所得到的检测 模型,可有效适用于1 在大数据时代,一片叶子 上的威胁发现,必须借助 针对整个森林的威胁研究 空间换时间 通过对互联网海量多维数据的分析、挖 掘和关联,才能真正解决在本地数据中 快速发现未知威胁的难题 理想是否太骨感:一个大数据安全分析的例子 如果仅仅给我们一个恶意样本的MD5,我们究竟能看到些什么? 新型恶 意样本 新型控 制域名 攻击者 潜在背景 攻击者 潜在动机 … 受控主机 分布 已知恶意 样本 (MD5) 网络入侵 途径 窃密/泄密 可能意图 受控主机 可能背景 … 另一个案例:H组织 据360天眼实验室发现,2012年4月起,与我国有领土争端的某国家对中 国 政 府 、 科 研 院 所 、 海 事 机 构 、 海 运 建 设 、 航 运 企 业 等相关重要领域 展开了有计划、有针对性的长期渗透和攻击,我们称之为“H组织”。 该组织主要通过鱼 叉 攻 击 和 水 坑 攻 击 等方法,配合多种社会工程学手段 进行渗透,向境内特定目标人群传播特 种 木 马 程序,秘密控制部分政府人 员、外包商和行业专家的电脑系统,窃取系统中相关领域的 机 密 资 料 。 https://skyeye.360safe.com 更多的案例:独立发现的APT组织 境内 感染量 首次 发现时间 最近 发现时间 影响 省份数 影响行业 感染方式 APT-C-00 1047 2012/4 2015/5/22 29 政府、海洋、海 事 鱼叉邮件、水坑 APT-C-01 235 2012/2/15 2015/4/5 28 政府 鱼叉邮件 APT-C-02 17 2014/4/3 2014/6/29 3 科研、教育 鱼叉邮件 APT-C-03 180 2014/8/1 2015/4/14 9 教育 鱼叉邮件 APT-C-04 5 2014/11/3 2014/12/15 2 非政府组织 鱼叉邮件 APT-C-05 12 2015/2/12 2015/3/24 3 政府 鱼叉邮件 APT-C-06 4 2015/2/24 2015/3/7 3 科研 鱼叉邮件 APT活动 INSIDE BIG DATA ANALYTICS FOR SECURITY 关键能力之一:真正拥有数据 海量情报数据 主防库 • 覆盖5亿客户端 • 总日志数50000亿条 • 每天新增100亿 全球独有的样本库 • 总样本95亿 • 每天新增900万 存储计算能力 数据挖掘技术 可视化分析技术 最大中文漏洞库 • 总漏洞数超过40万 • 每天新增可达500个 360云端 最大的存活网址库 • 每天查询300亿条 • 每天处理100亿条 互联网域名信息库 • 50亿DNS解析记录 • 每天新增100万 关键能力之二:学会处理数据 海量情报数据 互联网大数据技术路线 利用最廉价PC服务器+开源/自主开发软件构建而成 存储计算能力 数据挖掘技术 数据的可靠性,扩展性全部自主可控,成本不到IOE方案的1/100 存储计算能力的关键在于规模 大数据服务器规模超过40000台 可视化分析技术 总存储数据量接近1EB,每天新增超过1PB 每天各种数据计算任务10万个,每天处理数据量10PB 具备一分钟内调动几十万颗CPU核参与计算能力 具备一秒钟处理1TB数据的能力 大数据存储和计算能力 • 成本 • • 可靠 • • 将计算推送到存储设备上进行,避免采用传统架构,如磁阵等,否则一定会 遭遇I/O或网络传输等瓶颈 适配 • • 采用分布式并行架构,可以达到互联网级别的可靠性,优于商业方案 效率 • • 采用廉价PC服务器+开源软件,避免采用磁盘阵列等昂贵设备 必须合理采用存储和计算架构,不同应用会对存储和计算带来不同的要求, 避免将Hadoop作为大数据的代名词。 规模 • 规模决定了大数据方案的最终交付质量 ,如果缺乏运营大数据的经验,则大 数据方案的交付成本会非常高昂,常常导致失败。 关键能力之三:懂得挖掘数据 海量情报数据 • 以未知恶意软件发现引擎为例 • 基于海量数据挖掘、引入机器智能学习算法,能够有 效准确识别未知恶意软件,是人工智能技术在恶意程 存储计算能力 序自动分析领域中的首次商业应用 数据挖掘技术 可视化分析技术 • 样本聚类分析,相似样本发现,同源样本追踪 例:数据关联方法寻找新型样本 失效 CnC 历史CnC 或样本 查询域名解析记录, 获得曾解析失效域 名的客户端  DNS …  MID-1 被监控 流量数据 威胁 情报 新样本 主防 检查有无 新样本 发现未知 威胁   样本 哪些客户 端做过样 本升级  MID-2 MID-n 曾经查询过失效 CnC的客户端 方法:通过失效域名的解析记录,关联寻找到感染者,部分客户 端有可能进行过样本升级,再通过主防日志获得新型的恶意样 本。 例:采用深度学习识别未知流量 • 深度学习的应用 搭建了高性能GPU并行计算平台,专门用于深度学习,如未知协议识别、同源性 域名发现等

pdf文档 2015-《从微观到宏观--大数据如何改变安全-吴云坤》

安全研究库 > 网络论坛材料 > 数据驱动安全之大数据分析论坛 > 文档预览
39 页 0 下载 37 浏览 0 评论 0 收藏 3.0分
温馨提示:如果当前文档出现乱码或未能正常浏览,请先下载原文档进行浏览。
2015-《从微观到宏观--大数据如何改变安全-吴云坤》 第 1 页 2015-《从微观到宏观--大数据如何改变安全-吴云坤》 第 2 页 2015-《从微观到宏观--大数据如何改变安全-吴云坤》 第 3 页 2015-《从微观到宏观--大数据如何改变安全-吴云坤》 第 4 页 2015-《从微观到宏观--大数据如何改变安全-吴云坤》 第 5 页
下载文档到电脑,方便使用
还有 34 页可预览,继续阅读
本文档由 张玉竹2022-04-08 10:41:25上传分享
给文档打分
您好可以输入 255 个字符
安信天行文库的中文名是什么?( 答案:安信天行 )
评论列表
  • 暂时还没有评论,期待您的金玉良言