2015-10-15 2015-10-15 高性能数据分析平台架构实践: SequoiaDB+PowerLinux 作者:孔皓 新型分布式数据库 高性能硬件平台加速大数据应用 Spark on PowerLinux之优化方案 数据分析平台案例 新型分布式数据库 数据库领域的挑战者 大数据时代来临拥抱新型数据库Nosql  在过去的很长一段时间中,关系型数据库(Relational Database Management System)一直是最主流的数据库解决方案,他运用真实世 界中事物与关系来解释数据库中抽象的数据架构。然而,在信息技术爆 炸式发展的今天,大数据已经成为了继云计算,物联网后新的技术革命, 关系型数据库在处理大数据量时已经开始吃力,开发者只能通过不断地 优化数据库来解决数据量的问题,但优化毕竟不是一个长期方案,所以 人们提出了一种新的数据库解决方案来迎接大数据时代的到 来——NoSQL(非关系型数据库)。 8 新一代分布式数据库特点  存储模式灵活简单:无需设计表结构和操作模式  性能更优:面对大数据的需求,性能优势明显  分布式水平扩展:容量动态扩展,大大节约存储成本  高可用:在不影响性能的前提下,架构更灵活  大数据架构支持:新一代分布式数据库完全的支持Hadoop/Spark等等主 流的大数据架构,对于大数据的应用支持更全面 国内新一代分布式数据库代 表——SequoiaDB 国内新一代分布式数据库代 表——SequoiaDBSequoiaDB (巨杉数据库)是一款分布 式文档型NoSQL数据库,是业 界唯一支持事务和SQL的产品。 SequoiaDB既可作为Hadoop与 Spark的数据源以满足实时查 询和分析的混合负载,也可 独立作为高性能、灵活易用 的数据库被应用程序直接使 用。 9 SequoiaDB是大数据应用首选 SequoiaDB 存储架构 SequoiaDB目前的架构使用的是典型的MPP架构,编目节点存储元数据, 协调节点负责分布式系统的任务分发,数据节点负责数据存储和操作。 数据节点可以动态的扩容。架构图如下: SequoiaDB作为“数据湖”可以连接两个世界 JSON文档的存储方式,适用于所有的结构化、非结构化和半结构化的数据。存储上, 能将数据进行统一的存储。而SequoiaDB 对SQL还有多个大数据架构的完美支持,能够 成为连接两种不同的数据操作方式的桥梁。 高性能硬件平台加速大数据应用 PowerLinux高性能服务器 PowerLinux高性能服务器  PowerLinux也称为Linux on Power,意即基于power架构的Linux服务器  Power芯片基于RISC指令集架构(精简指令集), RISC服务器在硬件架 构设计上与X86服务器有很大的差别,使用了非常多的冗余技术和高可 用技术,因此可靠性较高,制作工艺也较难  最新一代power芯片power8针对大数据scaleout有着深度的优化,支持 Redhat,Ubuntu,Suse等主流Linux操作系统 PowerLinux海量计算资源之SMT技术  CPU并发多线程技术SMT( Simultaneous multithreading ),是IBM 从 Power5芯片开始实现的新技术,它支持一个CPU内核同时处理多条指令, 因此可以最高达到单一CPU几倍的处理速度。 任何单个应用程序都不能 完全使该处理器达到满负荷。当一个线程遇到较长等待时间事件时,同 步多线程还允许另一线程中的指令使用所有执行单元。例如,当一个线 程发生高速缓存不命中,另一个线程可以继续执行。  Power8芯片在smt技术上做到并行8线程(smt=8),单个物理socket支 持12core的前提下,也就意味着最高单颗cpu可以达到96threads,其海 量的计算资源是大数据性能提升源源不断的动力。 Power8智能多线程(smt) SMT1: Largest unit of execution work SMT2: Smaller unit of work, but provides greater amount of execution work per cycle SMT4: Smaller unit of work, but provides greater amount of execution work per cycle SMT8: Smallest unit of work, but provides the maximum amount of execution work per cycle 按需动态切换: SMT1 / SMT2 / SMT4 / SMT8 可以混合使用 16 17 小尾端支持Support Little Endian Big/Little Endian Little Endian Support on Power8 123 Ubuntu 14.04.00/01 从左至右 从右至左 一百二十三 三百二十一 Big Endian (BE) Little Endian (LE) Mainframe RISC x86 SUSE 12 Redhat7.1 用户收益 在应用迁移中, C/C++语言编写的Linux应用无 需更改字节序的源代码,比如网络字节序与 系统字节序间的转换。 Redhat、Ubuntu 和SUSE 的Little Endian 架构进 一步减少了此类工作。 18 Power Virtualization Options PowerVM PowerVM: Provides virtualization of Processors, Memory, Storage, & Networking for AIX, IBM i, and Linux environments on Power Systems. PowerKVM PowerKVM: Open Source option for virtualization on Power Systems for Linux workloads. For clients that have Linux centric admins. (RHEL 6.5 & SLES 11.3) Power8支持CAPI协议和FPGA加速应用 DD Call Copy or Pin Source Data Shared Mem. Notify Accelerator MMIO Notify Accelerator Acceleration Acceleration Poll / Int Completion Copy or Unpin Result Data Ret. From DD Completion Shared Memory Completion CAPI协议和FPGA加速  Power8 提供了一组新的接口,称为CAPI(Coherent Accelerator Processor Interface)。通过CAPI接口,一些图形处理器(Nvida)或者FPGA等外部 组件可以与Power8处理器直接通讯。CAPI接口是使用PCI-E3.0 通道提供。 应用系统可以使用CAPI接入的这些图形处理器,FPGA等外部组件实现一 些关键的功能。由于CAPI接入的外部硬件可以共享处理器的内存地址, 所以减少了操作过程中由操作系统和不同层设备之间产生的堆栈路径长 度,所以大幅提升运行效率和性能。实现了硬件加速功能。

pdf文档 2015-《高性能数据分析平台架构实践:SequoiaDB + Power Linux-孔皓》

安全研究库 > 网络论坛材料 > 2015Qcon > 文档预览
43 页 0 下载 40 浏览 0 评论 0 收藏 3.0分
温馨提示:如果当前文档出现乱码或未能正常浏览,请先下载原文档进行浏览。
2015-《高性能数据分析平台架构实践:SequoiaDB + Power Linux-孔皓》 第 1 页 2015-《高性能数据分析平台架构实践:SequoiaDB + Power Linux-孔皓》 第 2 页 2015-《高性能数据分析平台架构实践:SequoiaDB + Power Linux-孔皓》 第 3 页 2015-《高性能数据分析平台架构实践:SequoiaDB + Power Linux-孔皓》 第 4 页 2015-《高性能数据分析平台架构实践:SequoiaDB + Power Linux-孔皓》 第 5 页
下载文档到电脑,方便使用
还有 38 页可预览,继续阅读
本文档由 张玉竹2022-04-08 10:47:23上传分享
给文档打分
您好可以输入 255 个字符
安信天行文库的中文名是什么?( 答案:安信天行 )
评论列表
  • 暂时还没有评论,期待您的金玉良言