金融大数据平台与及其测试 魏凯 中国信息通信研究院/数据中心联盟 2015.7.30 提纲 • 金融大数据平台技术需求 • 大数据平台测试 金融业是数据密集行业 900 每100万美元收入的数据用量(GB) 820 800 700 760 650 600 500 490 460 400 300 300 230 200 220 220 200 180 150 140 100 20 0 数据来源:SINIA、NextGen Storage、BCG等,2015年 金融大数据的主要应用模式 详单 查询 客户 分群 客户 关怀 欺诈 防范 … 创新 信用 评分 精准 营销 改善 舆情 感知 风险 预警 影像 存储 报表 升级 61.7%*的人认为提升运营效率是企业大数据应用的最明显效果 *数据来源:中国信息通信研究院《中国大数据发展调查报告(2015年)》,2015年5月 数据仓库向分布式迁移 70% 61% 60% 是否将负载从传统数据仓库(如 Teradata/Oracle)向分布式架构(Hadoop等)迁 移? 50% 40% 34% 30% 20% 10% 5% 0% 是 Source: Wikibon Q2 2014 Big Data Survey 否,但计划在未来6个月迁移 否,未来6个月不会迁移 金融大数据平台 大数据 应用 详单查询 NoSQL (HTTP/REST) 欺诈检测 分群/推荐/评分 机器学习 OLAP(SQL/HQL) Hive 大数据 平台 离线建模 分析报表 (Java/Scala/R/Python) Mahout MLlib HBase MapReduce Spark SQL 流处理 (Java/Python) Spark Stream Storm Spark HDFS+YARN 抽取、加载 数据源 HDFS/JDBC/ODBC/FTP/Sqoop/Flume/Kafka… 业务数据 运营据 外部据 金融客户对大数据平台的需求 1. 性能:吞吐量和性价比,软硬件容量估算/选型 2. 易用性:集群部署,管理自动化,自动调优 3. 稳定性:连续48小时高负载 4. 水平扩展能力:是否线性和极限规模 5. 安全性:加密,权限,等级保护 6. 灾备能力:业务连续性和监管合规 7. 容错能力:节点失效与数据恢复 8. 多租户:混合负载与隔离效果 9. 接口支持:SQL\jdbc\odbc\java\R\Scala\Python 提纲 • 金融大数据平台技术需求 • 大数据平台测试 基准测试是不可或缺的标尺 开发 研究 基准测试 代表性、公平、可重复、成本低 选型 典型案例: --计算机SPEC基准 1988年 如:SPEC CPU 2006 --数据库TPC基准 运维 调优 1988年 如:tpmC 对接需求与供给的桥梁 需求@用户 产品@供应商 共同定义基准测试 多变的/模糊的/离散的稳定的/清晰的/整合的 庞大的市场需求 崛起的厂商群体 在大数据产业崛起的初期,国内有必要也有条件 启动大数据基准测试标准研究 大数据基准测试 Big data benchmarking Big Data Benchmark BigdataBench BigBench TeraSort YCSB GridMix LDBC PigMix HiBench TPC-DS TPC-xHS 非标准、特定场景、产品偏向、非广泛认可… 大数据基准测试规范准制定 数据中心联盟大数据工作组 2014年6月启动,四次会议讨论 2015年1月28日,发布征求意见稿 《大数据平台基准测试 第一部分:技术要求》 ——方法论、负载和数据需求、指标 《大数据平台基准测试 第二部分:测试方法》 ——10个测试用例,条件、流程、方法 中国信息通信研究院、中国科学院计算技术研究所、华为技术有限公司、中国移动通信集团公司、英特尔 (中国)有限公司、微软(中国)有限公司、IBM中国开发中心、新浪网技术(中国)有限公司、百度在线 网络技术(北京)有限公司、浪潮软件集团有限公司、中兴通讯股份有限公司、世纪互联、上海优刻得信息 科技有限公司、星环科技、中国电信 被测对象、测试负载和数据 测试数据 表 Join 测试负载 10个 Aggregation 测试对象 SQL数据仓库 表 Read 文本、图 Write TeraSort PageRank Wordcount Scan K-means Naïve Bayes NoSQL数据库 MapReduce引擎 全球首次标准化测试活动 . . . . . 16台戴尔R730服务器 . . . . . • 测试环境(中国信息通信研究院实验室) • • 华三S5820X 万兆交换机 服务器:戴尔R730*16台 • CPU:2*英特尔至强 E5-2620 v3 2.4GHz,15M 缓存 • 内存4*16GB RDIMM, 2133 MT/s • 硬盘10*1.2TB 10K RPM SAS 6Gbps 2.5英寸 热插拔硬盘 • 网卡是2口万兆网卡 交换机:华三48口万兆S5820X交换机 测试负载及数据规模 数据集 规模 Wordcount文本 2.8TB Naïve Bayes 文本 158GB Kmeans 图 迭代次数 17次 PageRank 图 迭代次数 27次 Hive表 2.9T(20亿条) TeraSort 13.6TB 评价的指标 安全 节点失效 备份恢复 加密 身份认证 权限管理 容错 性能 10种典型负载 的吞吐量 部分测试结果 平均值 Hive MapReduce HBase 负载 集群吞吐率 单节点平均 Aggregation 2,087 MB/s 139 MB/s/Node TeraSort Read 1,258 MB/s 71,7108 ops/s 84 MB/s/Node 7,1710 ops/s/Node 下一步标准规划 1. 总则 2. 基础测试规范 I. 性能 a. OLAP b. NoSQL c. ML d. Stream e. OLTP II. 功能 a. 安全 b. 运维 3. 行业测试规范 I. 金融 II. 电信 III. 电网 大数据大数据技术和应用发展 1.更多用户 参与 2.学术界共 同研究 3.与产业界 紧密互动 电信 金融 政务 交通 工业 应用场景与 案例研究 典型场景负载 端到端负载 标准 开源工具 测试活动 宣传推广 谢谢!
2015-《金融大数据平台与及其测试》
温馨提示:如果当前文档出现乱码或未能正常浏览,请先下载原文档进行浏览。
本文档由 张玉竹 于 2022-04-07 17:24:04上传分享