机器学习在恶意样本检测方面的实践之路东巽科技（北京）有限公司 www.dongxuntech.com 来自恶意样本的挑战每天不断新增的可疑样本，分析和判别是两回事！ |2 判定规则，之外还有什么？机器学习是人工智能的核心，也是大数据分析的基石。 |3 我们目前的成果  样本不均衡解决方法：过采样  样本训练集：重复正常样本数据，使得正常样本与恶意样本近似1:4(17288个样本集，包含正常样本3208个，恶意样本14080个)  特征：APIs  算法：RandomForest  样本预测集：约15万  识别率：98.84% |4 CONTENTS 初识机器学习入门级简单实践工程化的那些坑对机器学习的粗浅认识 Technology Way Tools |6 两个学科的结合 • 懂机器学习算法的，缺乏领域里的专业知识 • 有领域专业知识的，不懂机器学习算法机器学习安全领域 • 二者各自领域都存在比较高的门槛 |7 机器学习的经典流程：训练和预测 |8 怎么落地？收集输入如何选择要输入什么内容？输入的是到底什么形式的数据？输入的数据如何产生，从哪来呢？特征抽取机器学习算法评价衡量算法什么是特征，怎么分类？机器学习算法五花八门，要如何衡量训练的结果多维度特征是什么意思？看得眼花缭乱，该如何模型的好坏？如何选择更有效特征? 选择算法来做训练好呢？如何衡量是哪个因素导对机器学习而言，特征采用聚类呢？还是分类致的模型结果的好坏？的选取很关键！算法呢？输入怎么区分定义？ |9 CONTENTS PAGE 02 入门级简单实践输入数据一切可以收集到、真实准确的信息都可以尝试拿来作为机器学习的输入数据。  样本静态分析 IDA Pro、OllyDbg、LordPE、OllyDump  样本动态分析 PE ProcessMonitor、Wireshark、CWSandbox、 Cuckoo |11 特征抽取东巽铁穹产品中的沙箱分析引擎每天都在产生大量的样本动态行为报告日志  系统资源操作行为虚拟化沙箱  系统API调用行为  函数调用行为  字符资源调用行为样本动态分析报告 PE 铁穹沙箱分析引擎  线程操作行为  数据流处理行为  ……  样本静态报告信息：关键汇编代码段、动态库导入、可打印字符、函数长度、控制流图…… |12 机器学习算法的选取聚类 or 分类？基于业务需求考虑，还是从监督模式的分类算法起步，把可疑样本分成恶意样本和非恶意样本两类 |13 WEKA WEKA作为一个公开的数据挖掘工作平台，集合了大量能承担数据挖掘任务的机器学习算法，包括对数据进行预处理，分类，回归、聚类、关联规则以及在新的交互式界面上的可视化。 PS:WEKA存储数据的格式是ARFF，同时WEKA也支持json、 csv等格式的数据文件 |14 评价和衡量算法优劣  正确率，即被分对的样本数除以所有的样本数，accuracy = （TP+TN）/(P+N)  错误率，也叫误差，error rate = (FP+FN)/(P+N)=1- accuracy  精度，即被分为正例的示例中实际为正例的比例， precision=TP/（TP+FP）  召回率，是覆盖面的度量，度量有多个正例被分为正例， recall=TP/(TP+FN)=TP/P |15 简单实践的结果  训练样本信息：样本数据共7099个32位PE可执行程序，其中包含恶意样本数据4000条，非恶意样本数据3099条。  训练样本信息路径：\analysis-datas\datamining\000001  算法选择：逻辑回归  训练模式： 100%，即样本均作为训练样本  训练结果：正确率：92.6328 % 错误率：7.3672 %  测试样本信息：测试样本数据一共为1000条，均为32位恶意PE可执行程序。  测试结果：（正确率和错误率）正确率：88.1 % 错误率：11.9 % |16 CONTENTS PAGE 03 工程化的那些坑算法模型调优在理解算法参数的基础上，对每种算法参数的调优，并加快迭代收敛。然后再通过对算法作横向对比，对于每种算法的优劣、适用场景会有更深的认识。测试算法漏报误报逻辑回归 24% 20% SVM 22% 43% 随机森林 12.8% 10% 该实验结果表明，随机森林算法优于逻辑回归及SVM算法小实验：分别使用不同的算法训练生成模型，再对另一批恶意及非恶意样本进行测试。 |18 尝试引入新的特征向量 • 不同层面 • 不同维度 • 不同颗粒度多角度观察数据的特征 |19 欠拟合和过拟合现象对于一个监督学习模型来说，过小的特征集合使得模型过于简单，过大的特征集合使得模型过于复杂，需要找到平衡之道。使用K近邻(KNN)分类器预测数据集类别  对于特征集过小的情况，称之为欠拟合（ underfitting ）  对于特征集过大的情况，称之为过拟合（ overfitting ）右图中，k=99的模型对捕获月牙形数据特征方面表现不是很好(这是欠拟合),而k=1的模型是对噪声严重的过拟合，过拟合的特点是良好的训练表现和糟糕的测试表现。作者：Natasha Latysheva;Charles Ravarani |20

2016-《机器学习在恶意样本检测方面的实践之路》

安全研究库 > 网络论坛材料 > 2016阿里云安全峰会 > 文档预览

28 页 0 下载 49 浏览 0 评论 0 收藏 3.0分

温馨提示：如果当前文档出现乱码或未能正常浏览，请先下载原文档进行浏览。

2016-《机器学习在恶意样本检测方面的实践之路》第 1 页

2016-《机器学习在恶意样本检测方面的实践之路》第 2 页

2016-《机器学习在恶意样本检测方面的实践之路》第 3 页

2016-《机器学习在恶意样本检测方面的实践之路》第 4 页

2016-《机器学习在恶意样本检测方面的实践之路》第 5 页

下载文档到电脑，方便使用

还有 23 页可预览，继续阅读

本文档由张玉竹于 2022-04-08 09:30:00上传分享

举报

下载原文档(2.20 MB)

收藏分享

给文档打分

评论列表

暂时还没有评论，期待您的金玉良言

最新文档