云之大数据平台架构设计 周小四 / Ray Zhou Agenda  云计算与大数据  系统架构  挑战  数据格式 云计算与大数据 Big Data Requires Elastic, Flexible Infrastructure  大数据解决方案最大、最重要的决定是平台的选择  实际需求   实时处理、离线处理、结构化数据、非结构化数据、CRUD、事务性 、数据量大小... 平台的能力    Hadoop, Spark, HBase... 能满足实际需求的平台才是好平台 不确定性   Relative scale, not absolute scale The world is changing! 云计算与大数据 Don’t try to do it yourself. Let us handle it.  自动化运维 稳定   高性 能  完整 安全   弹性、敏捷、灵活  自动 化 按需 开放   纵向、横向伸缩 分钟级别 稳定、高性能与安全   易用 一键部署 API调用 定时器 Auto Scaling  系统优化,平台配置优化 私有网络,防火墙 高度自动化是一个渐进的过程 系统架构 Reporting, Visualization Cassandra, MongoDB, Redis, MySQL, ElasticSearch Logs Metrics Social Data Sensor Data Messages Real Time Processing Batch Processing Big SQL Storm Spark SparkSQL Spark Streaming Kafka Custom Process Engine MapReduce Phoenix Hive Tachyon HDFS/ HBase/ Object Storage IaaS Monitoring Alarm Metering Security Governance (ZooKeeper) 系统架构 - Spark 系统架构 - 计算平台 Spark Streaming Storm* MapReduce 延时 秒级 毫秒 较高 吞吐量 大 较大 大 硬盘IO 一般 一般 高 网络 高 高 高 适用场景 近实时较大数据块分析 计算 实时小数据块分析 计算 离线高吞吐量分 析计算 当前稳定版本 1.5.1 0.9.5 2.6 起源 UC Berkeley AMPLab Twitter Google *Heron – claimed better than Storm by Twitter 系统架构 – Hadoop on Cloud  默认3个副本因子  云上真的需要3个吗?  怎么做最优? 系统架构 - 传输  Why Kafka  分布式、可分区、多副本的高吞吐量低延迟消息系统 3 Kafka servers, 1 producer –- 821,557 records/sec(78.3 MB/sec)*  适用于处理活跃的流式数据,比如网页的访问量、日志等 * https://engineering.linkedin.com/kafka/benchmarking-apache-kafka-2-million-writes-second-three-cheap-machines 系统架构 - 查询   SparkSQL, Phoenix, Hive SparkSQL支持交互式查询 Query: select count(1) from table over 10M and 100M rows. Data is 5 narrow columns. Number of Region Servers: 4 (HBase heap: 10GB, Processor: 6 cores @ 3.3GHz Xeon) https://phoenix.apache.org/performance.html 挑战   稳定性 性能   网络,IO 迁移   Within cloud Between cloud and on-premise 数据格式  错误的格式 性能成倍下降 空间成倍上升  可分割的(Splittable) XML, JSON文件(x) CSV, JSON记录, Avro, Parquet  可块压缩的(Block Compressible) CSV, JSON记录(x) Avro, Parquet 关注我们 QingCloud-IaaS 青云QingCloud www.qingcloud.com Thank you. ray@yunify.com

pdf文档 2015-《基础设施建设实战:云之大数据平台架构设计-周小四》

安全研究库 > 网络论坛材料 > 2015Qcon > 文档预览
16 页 0 下载 24 浏览 0 评论 0 收藏 3.0分
温馨提示:如果当前文档出现乱码或未能正常浏览,请先下载原文档进行浏览。
2015-《基础设施建设实战:云之大数据平台架构设计-周小四》 第 1 页 2015-《基础设施建设实战:云之大数据平台架构设计-周小四》 第 2 页 2015-《基础设施建设实战:云之大数据平台架构设计-周小四》 第 3 页 2015-《基础设施建设实战:云之大数据平台架构设计-周小四》 第 4 页 2015-《基础设施建设实战:云之大数据平台架构设计-周小四》 第 5 页
下载文档到电脑,方便使用
还有 11 页可预览,继续阅读
本文档由 张玉竹2022-04-08 10:48:33上传分享
给文档打分
您好可以输入 255 个字符
安信天行文库的中文名是什么?( 答案:安信天行 )
评论列表
  • 暂时还没有评论,期待您的金玉良言