智能移动终端攻防论坛 移动反病毒工程化体系中的降维思维 MOBILE ANTI-MALWARE SYSTEM’S DIMENSIONALITY REDUCTION THINKING TOM:PAN(潘宣辰) 主讲人介绍 • 潘宣辰,Tom:Pan – – AVL移动安全团队,武汉安天 Founder&Leader • 技术涉猎较广,手机反 病毒引擎和自动化分析 技术,移动安全攻防技 术,以及移动网络安全。 • tompan@antiy.cn 题目太大,时间很短,一句话概括这个PPT 如何用15个分析工程师运转一套完整的移 动反恶意代码体系,不依赖第三方引擎, 并实现世界Top3检出率的反病毒引擎 我们对反病毒引擎的工程化理解和映射 训练数据集中划 分成N个已知类 分类器 数据集合 训练数据 特征 聚类器 训练数据集中划 分成M个类 划定分类器和聚 类器,包括数据 的选择策略 类标签 迭代和学习策略 我们对反病毒引擎的工程化理解和映射 本地检测 引擎 倾向于检测/识别 等知识输出 云检测 引擎 知识化 引擎 分类器 样本捕获 样本库 前 台 恶意代码 命名 目标样本 特征 类标签 后 台 黑 白 灰 风险件 命名 其它 聚类器 倾向于分析/判定/ 关联等知识生成 人工分析 人工&机器 分析 其它知识库 机器分析 我们对反病毒引擎的工程化理解和映射 • 狭义反病毒引擎 – 在前台/用户侧解决恶意代码检测和识别输出的核心 功能模块 • 广义反病毒引擎 – 由前台和后台组成的系统化解决恶意代码分析/判定 和检测识别输出的工程化系统 • 区别反病毒引擎的核心要素 – 后台的判定能力 – 特征的选择策略 – 前台的检测机制 我们对反病毒引擎的工程化理解和映射—示 例1 本地检测 引擎 无本地特 征云检测 知识化 引擎 分类器 样本捕获 样本库 前 台 恶意代码 命名 目标样本 高样本覆 盖率特征 类标签 后 台 黑 白 灰 风险件 命名 其它 聚类器 人工分析 人工&机器 分析 其它知识库 第三方 引擎判定 我们对反病毒引擎的工程化理解和映射—示 例2 本地检测 引擎 云检测 引擎 知识化 引擎 分类器 样本捕获 样本库 前 台 恶意代码 命名 目标样本 高启发式 特征 类标签 后 台 黑 白 灰 风险件 命名 其它 聚类器 人工分析 人工&机器 分析 其它知识库 机器分析 反病毒引擎的误解/迷信 云检测 本地检测 引擎 引擎 误解:反病毒引擎是高级 算法的产物 分类器 样本捕获 样本库 知识化 引擎 前 台 恶意代码 命名 目标样本 后 台 误解2:特征是讳莫如深 特征 类标签 的 黑 白 灰 风险件 命名 其它 误解1:人工分析作业需 聚类器 要大量分析工程师,是劳 动力密集作业体系 误解2:后端使用第三方 人工&机器 人工分析 引擎是不好的 分析 其它知识库 迷信1:存在恶意代码自 动化判定的银弹 机器分析 我们对移动恶意代码对抗能力的设计和降维 追求第一时间对威胁的原生 发现和对抗能力。人工分析 和学习策略控制都将必定是 重度人工参与的 本地检测 引擎 阶段1 1.合理优化特征的选择和生成 2.尽可提高特征表达能力 分类器 1 样本库 目标样本 特征 类标签 迭代和学习策略 3 阶段2 3.尽可能降低目标样本规模 4.尽可能降低人工分析的规模 5.尽可能降低人工分析成本 聚类器 人工分析 人工&机器 分析 机器分析 阶段3 5.尽可能降低人工分 析成本 6.尽可能优化聚类器 的学习效率 5 移动恶意代码分阶段对抗局势 对抗走势图 1400 1200 1000 800 600 400 200 0 分析工程师(人) 2010 2 2011 4 2012 8 2013 13 2014 15 样本数量(千) 0.009 11 249 992 1331 降维阶段1 • 1.合理优化特征的选择和生成 – 文件格式的预处理能力 – 特征可供选择的提取的粒度 • 2.尽可能提高特征表达能力 – 易于推理 – 易于修改 – 易于表达和理解 降维阶段1 • 多层检测体系和检索式特征获取策略 Block A Heade r Block B Data Block C Code EXE 1 APK,ZIP App EXE 2 AndroidManifest Resource.arsc App-Manifest EXE Package Wrapper DEX,ODEX,ELF Manifest EXE Manifest Executable A Executable B Resource Resource Executable C Mobile OS App-Level Inner-Exe Symbol Opcode Exe-Level Executable-Style Other Features DEX Index&Fragmentation Style Code Inject&Rebuild ODEX Index&Fragmentation Style - Index&Fragmentation Style Self-Defined Format ELF Structural Style Code Infection OAT Structural Style&Fragmentation Style Code Inject EPOC Structural Style AndroidManifest Android APK Resource.arsc Self-Defined SISX Format Symbian SISX Code Compression IPA MACH-O Structural Style Code Encryption DEB MACH-FAT-O Structural Style Code Encryption CAB PE Structural Style - iOS Windows Phone 降维阶段2 • 3.尽可能降低目标样本规模 – – – – 通过高检出率尽可能排除无效/重复分析和判定 基于情报和样本来源权重进行优先级标记 基于动态行为异常分析判定进行优先级筛选 引入基于代码相似性的特征 检测能力1:N • 4.尽可能降低人工分析的规模 – 增加人工流程,形成分组作业能力 – 通过半监督学习进行样本分组 • 5.尽可能降低人工分析成本 – 引入自动化静态/动态行为分析数据 – 引入第三方样本情报关联 作业能力1:N 降维阶段2 模块① 该模块为训练集模块,通过朴素贝叶斯算法,将该灰训练集与85个黑家族训练集分别构成85个二分类器。最终模块①针对N不同家族建立了N个二分类 器,每个分类器可得到该样本属于某个家族或灰的概率(二者之和等于1)。 模块② 该模块为阈值判定模块,考虑到应用场景,要求模型有极高的判黑置信度,而判灰置信度可相对弱化, 模块③ 该模块为行为匹配模块,将模块②输入的该样本做行为匹配,策略如下: 模块④ 该模块为反馈模块,即将Bayes模型错判的样本分别添加至各个家族的训练集中,以构成一个“错题库”,即让模型“记住”这些被错判的样本,保证以 后不再“犯同样的错误” 降维阶段2 降维阶段3 • 5.尽可能降低人工分析成本 • 6.尽可能优化聚类器的学习效率 – 威胁视角(主) • 用户侧恶意代码碰撞概率 – 风险视角(辅) • 后端恶意代码迭代周期,对抗成本,技术需求 – 因为我们的目标首先还是提高用户侧的检出对抗能 力,随后才是能力测的对抗能力 – 检出能力或分类成功率都是最高优先级的指标 降维阶段3 降维阶段3 1,部分捕获困难 2,行为藏匿和对抗 3,难准确进行界定 1,攻击手段多样 2,恶意代码结构和机 理差异较大 3,更新迭代较快 1,攻击手段相对单一 2,混淆和对抗剧烈 3,免杀和迭代较快 恶意分发 流氓 FuckSMS Faketaoba o abortlist smsmailThie f 定向 投放 重度 隐私 色情 变种 变种 变种 emial 变种 变种 变种 家族 家族B 家族C 家族D A B A B A B A 变种 变种 变种 变种 变种 变种 家族 家族B 家族C 家族D A B A B A B A 变种 变种 变种 变种 变种 变种 家族 家族B 家族C 家族D A B A B A B A
2015-《移动反病毒工程化体系中的降维思维-潘宣辰》
温馨提示:如果当前文档出现乱码或未能正常浏览,请先下载原文档进行浏览。
本文档由 张玉竹 于 2022-04-08 10:54:20上传分享