分布式前置机器学习 在威胁情报中的应用 Application of Distributed Front-end Machine Learning in Threat Intelligence 类似的尝试 Moving Big-Data Analysis from a ‘Forensic Sport’ to a ‘Contact Sport’ Using Machine Learning and Thought Diversity AJ Ferguson, NM Evans Harris Information Assurance Directorate National Security Agency Journal of Information Warfare (2015) Volume 14 IAD is responsible for NSA's defensive mission and is widely acknowledged for leading innovative security solutions. 疑问: 逆潮流? 分布式 大数据 分析平台 更清楚"看见" 前置 争分夺秒的时间竞赛 icloud-ios-appeid.us iCloud 账户钓鱼,巨大利润空间 注册:2015-09-26 下线:2015-09-29 威胁情报有效期:3 天 机器识别:恶意域名+网页内容 定向攻击企业也可使用类似手法 尽可能在攻击链早期发现 Kill Chain • 争 取 防 御 空 间 和 时间 • 对 策 1 : 利 用 威胁 情报 • 对 策 2 : 在 接 触点 实时 分析 • 机器学习引擎前移 • 缓 解 大 数 据 平 台 的滞 后 • 缩短应急响应时间 • 不 可 能 预 警 所 有 威胁 威胁情报生产 = 发现未知威胁 利用威胁情报 = 跳过未知威胁分析过程 自古华山一条路? 大数据 威胁情报 生产 正确道路但耗资巨 大 基础设施不堪重负 Too much data? 永 远 塞 车的 带 宽 日 益 拥 挤的 存 储 耗 时 的 查询 分 析 态 势 感 知 : 借 助 威 胁 情 报 超 越 SIEM Situation Awareness • It’s not a matter of simply aggregating all the tactical-level information available. Instead, status information must be correlated to the context of the mission or business, thus exposing the real impact to its operations. • At the strategic level, it's important to be able to look well beyond simple incident data to identify threat actors, recognize trends in their activities, and expose their malicious objectives. 以 价 值 为 导 向 : 业 务 、风 险 - Too much data? Data is useless unless it drives decisions. 关键数据风险分布 业务系统行为异常 木马传染扩散路径 分布式前置引擎的能力 正 确 保 留 情 境 信 息 的 情 报 最 有 价 值 : 关 联 性 、行 动 性 、预 测 性 数据分类 木马分类 恶意域名 行为异常 网址分类 流量异常 机器学习 原始数据 聚类结果 无监督 学习 训练数据 人工 干预 规则 有监督 学习 分类器 原始数据 分类结果 木马聚类分类 传统手工分析 机器学习选取特征 • 功能列表 • 代码复用 • 编程错误 • API调用 • 加密方式 • 函数顺序逻辑 • 免杀对抗手段 • 数据段构造 • 进程设计 • 漏洞利用 • 释放文件模块 • 编译器特征 • 通讯方式 • 时间/地点/编 码等 关键数据行为异常 基线 • 终端用户行为历史,如A部 门用户每天平均访问220次 关键数据 • 外发敏感数据行为历史,如 用 户 、设 备 、时 间 、频 率 、和 目的地等 • 内部业务系统和服务器敏感 数据访问历史 异常侦测 • 超过正常访问敏感数据次数5倍以上 • 使 用 压 缩 软 件 RAR 打 包 大 量 敏 感 数 据 • 向 USB 设 备 中 密 集 大 量 拷 贝 敏 感 数 据 • 用户或设备频繁外发加密文件 • 从内部服务器下载大量表单等数据 • 大 量 访 问 恶 意 域名(DNS 隐 蔽 信 道 点 滴外传) 更多场景实例 • 恶意域名相关威胁 • Web drive-by • 非授权特权账户访问 • 异常登录行为 • Tor / P 2 P • 文件内网扩散 威胁情报推送 每天新增情报数量 使用机器学习引擎 • C&C 域 名 : 几 万 条 • 极 低 更 新 成 本 的DGA 域 名 判 定 • 钓鱼网站:数十万个 • 域名与网页内容协同发现钓鱼 • 木马家族变异样本:数万个 • 木马家族同源变种预测识别 • 入侵手法TTP等 • 异常行为分析 分布式前置机器学习引擎的实现 需求 开源?太多工程难 点 • 轻量化 • 体积大 • 场景针对性 • 只有通用算法实现 • 高性能 • 实现性能难以接受 • 产品级稳定 • 各种bug和功能变 更 • 改进的响应速度 • 完全不可控 STIX速查卡 - 展台B6免费领取 思睿嘉得
2015-《分布式前置机器学习在威胁情报中的应用-董靖》
温馨提示:如果当前文档出现乱码或未能正常浏览,请先下载原文档进行浏览。
本文档由 张玉竹 于 2022-04-08 10:43:54上传分享