文库搜索
切换导航
首页
频道
法律法规库
安全标准库
行业政策库
安全研究库
项目案例库
会员中心
首页
法律法规库
安全标准库
行业政策库
安全研究库
项目案例库
上传文档
会员中心
机器学习在恶意样本检测方面 的实践之路 东巽科技(北京)有限公司 www.dongxuntech.com 来自恶意样本的挑战 每天不断新增的可疑样本,分析和判别是两回事! |2 判定规则,之外还有什么? 机器学习是人工智能的核心,也是大数据分析的基石。 |3 我们目前的成果 样本不均衡解决方法:过采样 样本训练集:重复正常样本数据,使得正常 样本与恶意样本近似1:4(17288个样本集,包 含正常样本3208个,恶意样本14080个) 特征:APIs 算法:RandomForest 样本预测集:约15万 识别率:98.84% |4 CONTENTS 初识机器 学习 入门级简单 实践 工程化的那 些坑 对机器学习的粗浅认识 Technology Way Tools |6 两个学科的结合 • 懂机器学习算法的,缺乏领域里的专业知识 • 有领域专业知识的,不懂机器学习算法 机器学习 安全领域 • 二者各自领域都存在比较高的门槛 |7 机器学习的经典流程:训练和预测 |8 怎么落地? 收集输入 如何选择要输入什么内 容? 输入的是到底什么形式 的数据? 输入的数据如何产生, 从哪来呢? 特征抽取 机器学习算法 评价衡量算法 什么是特征,怎么分类? 机器学习算法五花八门, 要如何衡量训练的结果 多维度特征是什么意思? 看得眼花缭乱,该如何 模型的好坏? 如何选择更有效特征? 选择算法来做训练好呢? 如何衡量是哪个因素导 对机器学习而言,特征 采用聚类呢?还是分类 致的模型结果的好坏? 的选取很关键! 算法呢? 输入怎么区分定义? |9 CONTENTS PAGE 02 入门级简单实践 输入数据 一切可以收集到、真实准确的信息都可以尝试拿来作 为机器学习的输入数据。 样本静态分析 IDA Pro、OllyDbg、LordPE、OllyDump 样本动态分析 PE ProcessMonitor、Wireshark、CWSandbox、 Cuckoo |11 特征抽取 东巽铁穹产品中的沙箱分析引擎每天都在产生大量的样 本动态行为报告日志 系统资源操作行为 虚拟化沙箱 系统API调用行为 函数调用行为 字符资源调用行为 样本动态分析报告 PE 铁穹沙箱分析引擎 线程操作行为 数据流处理行为 …… 样本静态报告信息:关键汇编代码段、动态库导入、可打印字符、函数长度、 控制流图…… |12 机器学习算法的选取 聚类 or 分类? 基于业务需求考虑,还是从监督模式的分类算法起步,把可疑样本分成恶 意样本和非恶意样本两类 |13 WEKA WEKA作为一个公 开的数据挖掘工作平台, 集合了大量能承担数据 挖掘任务的机器学习算 法,包括对数据进行预 处理,分类,回归、聚 类、关联规则以及在新 的交互式界面上的可视 化。 PS:WEKA存储数据的格式是ARFF,同时WEKA也支持json、 csv等格式的数据文件 |14 评价和衡量算法优劣 正确率,即被分对的样本数除以所有的样 本数,accuracy = (TP+TN)/(P+N) 错误率,也叫误差,error rate = (FP+FN)/(P+N)=1- accuracy 精度,即被分为正例的示例中实际为正例 的比例, precision=TP/(TP+FP) 召回率,是覆盖面的度量,度量有多个正 例被分为正例, recall=TP/(TP+FN)=TP/P |15 简单实践的结果 训练样本信息: 样本数据共7099个32位PE可执行程序,其中包含恶意 样本数据4000条,非恶意样本数据3099条。 训练样本信息路径:\analysis-datas\datamining\000001 算法选择: 逻辑回归 训练模式: 100%,即样本均作为训练样本 训练结果: 正确率:92.6328 % 错误率:7.3672 % 测试样本信息: 测试样本数据一共为1000条,均为32位恶意PE可执 行程序。 测试结果:(正确率和错误率)正确率:88.1 % 错误率:11.9 % |16 CONTENTS PAGE 03 工程化的那些坑 算法模型调优 在理解算法参数的基础上,对每种算法参数的调优,并 加快迭代收敛。然后再通过对算法作横向对比,对于每种算 法的优劣、适用场景会有更深的认识。 测试算法 漏报 误报 逻辑回归 24% 20% SVM 22% 43% 随机森林 12.8% 10% 该实验结果表明,随机 森林算法优于逻辑回归 及SVM算法 小实验:分别使用不同的算法训练生成模型,再对另一批恶意及非 恶意样本进行测试。 |18 尝试引入新的特征向量 • 不同层面 • 不同维度 • 不同颗粒度 多角度观察数据的特征 |19 欠拟合和过拟合现象 对于一个监督学习模型来说, 过小的特征集合使得模型 过于简单,过大的特征集合使得模型过于复杂,需要找到平 衡之道。 使用K近邻(KNN)分类器预测数据集类别 对于特征集过小的情况,称之为 欠拟合 ( underfitting ) 对于特征集过大的情况,称之为 过拟合 ( overfitting ) 右图中,k=99的模型对捕获月牙形数据特征方面 表现不是很好(这是欠拟合),而k=1的模型是对噪 声严重的过拟合,过拟合的特点是良好的训练表 现和糟糕的测试表现。 作者:Natasha Latysheva;Charles Ravarani |20
2016-《机器学习在恶意样本检测方面的实践之路》
安全研究库
>
网络论坛材料
>
2016阿里云安全峰会
>
文档预览
28 页
0 下载
46 浏览
0 评论
0 收藏
3.0分
温馨提示:如果当前文档出现乱码或未能正常浏览,请先下载原文档进行浏览。
下载文档到电脑,方便使用
下载文档
还有
23
页可预览,
继续阅读
本文档由
张玉竹
于
2022-04-08 09:30:00
上传分享
举报
下载
原文档
(2.20 MB)
收藏
分享
给文档打分
您好可以输入
255
个字符
安信天行文库的中文名是什么?( 答案:
安信天行
)
评论列表
暂时还没有评论,期待您的金玉良言
最新文档
2016-《云环境下的数据安全-杨海峰》
2016-《有关IP的网络安全那些事儿-高春辉》
2016-《一起来实验:保险箱的脆弱面-姚威》
2016-《新一代自动化渗透平台的设计与实现》
2016-《无中生有-基于骨干网全量应用识别的威胁情报基础数据采集-孙朝晖》
2016-《唯品会安全应急杂谈》
2016-《威胁情报在网络犯罪侦查中的落地应用-张璇》
2016-《威胁情报如何通过漏洞管理在企业落地-刘然》
2016-《威胁情报企业安全-聂万泉》
2016-《网站-服务器取证实践与挑战-陆道宏》
1
/
28
评价文档
0 个金币
下载文档(2.20 MB)
回到顶部
×
下载提示
文档下载,需要消耗您
0
个金币。
您确定要下载
2016-《机器学习在恶意样本检测方面的实践之路》
文档吗?
×
分享,让知识传承更久远
×
文档举报
举报原因:
垃圾广告
淫秽色情
虚假中奖
敏感信息
人身攻击
骚扰他人
×
收藏文档
收藏文档
请选择收藏夹
请选择收藏夹
没有合适的收藏夹?去
创建收藏夹