2015-6-2 2015-6-2 百度开放云大数据技术演进历程 朱冠胤 百度高级技术经理 5 百度搜索是大数据技术最佳实践 万亿 几十亿次 收录全世界超过一万亿网页 100PB数据 中国网民每天的请求 过去和未来 记录了整个中国互联网的历史,现在与未来 大数据技术支撑百度 23个用户数过亿产品 、百万企业客户 6 7 百度开放云大数据整体架构 CTR预估 自然语言处理 推荐系统 数据智能 百度机器学习 BML 百度OLAP服务 Palo 数据库 RDS 邮寄硬盘 MolaDB 数据应用 百度MapReduce BMR 数据分析 百度对象存储系统 BOS 数据存储 Pub/Sub系统 专线/公网 数据收集 8 百度开放云大数据解决方案 邮寄硬盘 光纤专线 公网传输 VPC收集 多维分析Palo 对象存储BOS 数据 收集 MolaDB RDS 数据 分析 报表和BI BMR: Hadoop Spark Hbase 数据 智能 机器学习 BML 数据 应用 CTR 推荐 。。。 9 百度开放云大数据分析BMR技术演进 2013年,百度建成全球最大Hadoop集群 每天作业数超过 百万 日均CPU利用率 80%+ 2013年,百度Hadoop性能超越社区30% 2014年,Native C++ DAG引擎上线 1 个DAG Job 4 轮MR Job 避免 3 次Reduce写HDFS IO 避免 2 次Map读HDFS IO及处理 2014年,Native C++ DAG引擎上线 效果:提升性能 10% 到 数倍 两轮MR优化为一个DAG 三轮MR优化为一个DAG lower is better 2014年,Native C++ DAG引擎上线 基于MR引擎,需要翻译成 25个 MR Job 基于DAG引擎,只需要翻译成 1个 DAG Job 运行时间从 5小时 缩减到 1小时 2014年,百度大数据技术国际大赛夺魁! http://sortbenchmark.org 2015年,内存流式Shuffle上线,性能提升 30% 完全避免随机读IO Mapp er Mapp er Mapp er ① 流式Shuffle ② 基于内存 Push ③ 结果持久化 Shuffler Shuffler ④ 通用组件 2015年,百度受邀全球Spark峰会主题演讲 百度开放云大数据平台架构演进 百度分布式计算平台:架构演进(2012) Streaming Bitreaming MapReduce 存储型 HC E DVCE MPI/BSP ARK Torque/Maui HDFS Local FS 存储型 存储型 均衡型 均衡型 百度分布式计算平台:架构演进(2013) Streaming Bitreaming MapReduce HC E ARK DVCE、IDLE MPI/BSP、MR Torque/Maui、 Ark HDFS 存储型 存储型 高配存储型

pdf文档 2015-《百度开放云大数据技术演进历程-朱冠胤》

安全研究库 > 网络论坛材料 > 2015Qcon > 文档预览
24 页 0 下载 28 浏览 0 评论 0 收藏 3.0分
温馨提示:如果当前文档出现乱码或未能正常浏览,请先下载原文档进行浏览。
2015-《百度开放云大数据技术演进历程-朱冠胤》 第 1 页 2015-《百度开放云大数据技术演进历程-朱冠胤》 第 2 页 2015-《百度开放云大数据技术演进历程-朱冠胤》 第 3 页 2015-《百度开放云大数据技术演进历程-朱冠胤》 第 4 页 2015-《百度开放云大数据技术演进历程-朱冠胤》 第 5 页
下载文档到电脑,方便使用
还有 19 页可预览,继续阅读
本文档由 张玉竹2022-04-08 10:40:50上传分享
给文档打分
您好可以输入 255 个字符
安信天行文库的中文名是什么?( 答案:安信天行 )
评论列表
  • 暂时还没有评论,期待您的金玉良言