2015-6-2 2015-6-2 百度开放云大数据技术演进历程朱冠胤百度高级技术经理 5 百度搜索是大数据技术最佳实践万亿几十亿次收录全世界超过一万亿网页 100PB数据中国网民每天的请求过去和未来记录了整个中国互联网的历史，现在与未来大数据技术支撑百度 23个用户数过亿产品、百万企业客户 6 7 百度开放云大数据整体架构 CTR预估自然语言处理推荐系统数据智能百度机器学习 BML 百度OLAP服务 Palo 数据库 RDS 邮寄硬盘 MolaDB 数据应用百度MapReduce BMR 数据分析百度对象存储系统 BOS 数据存储 Pub/Sub系统专线/公网数据收集 8 百度开放云大数据解决方案邮寄硬盘光纤专线公网传输 VPC收集多维分析Palo 对象存储BOS 数据收集 MolaDB RDS 数据分析报表和BI BMR： Hadoop Spark Hbase 数据智能机器学习 BML 数据应用 CTR 推荐。。。 9 百度开放云大数据分析BMR技术演进 2013年，百度建成全球最大Hadoop集群每天作业数超过百万日均CPU利用率 80%+ 2013年，百度Hadoop性能超越社区30% 2014年，Native C++ DAG引擎上线 1 个DAG Job 4 轮MR Job 避免 3 次Reduce写HDFS IO 避免 2 次Map读HDFS IO及处理 2014年，Native C++ DAG引擎上线效果：提升性能 10% 到数倍两轮MR优化为一个DAG 三轮MR优化为一个DAG lower is better 2014年，Native C++ DAG引擎上线基于MR引擎，需要翻译成 25个 MR Job 基于DAG引擎，只需要翻译成 1个 DAG Job 运行时间从 5小时缩减到 1小时 2014年，百度大数据技术国际大赛夺魁！ http://sortbenchmark.org 2015年，内存流式Shuffle上线，性能提升 30% 完全避免随机读IO Mapp er Mapp er Mapp er ① 流式Shuffle ② 基于内存 Push ③ 结果持久化 Shuffler Shuffler ④ 通用组件 2015年，百度受邀全球Spark峰会主题演讲百度开放云大数据平台架构演进百度分布式计算平台：架构演进（2012） Streaming Bitreaming MapReduce 存储型 HC E DVCE MPI/BSP ARK Torque/Maui HDFS Local FS 存储型存储型均衡型均衡型百度分布式计算平台：架构演进（2013） Streaming Bitreaming MapReduce HC E ARK DVCE、IDLE MPI/BSP、MR Torque/Maui、 Ark HDFS 存储型存储型高配存储型

2015-《百度开放云大数据技术演进历程-朱冠胤》

安全研究库 > 网络论坛材料 > 2015Qcon > 文档预览

24 页 0 下载 28 浏览 0 评论 0 收藏 3.0分

温馨提示：如果当前文档出现乱码或未能正常浏览，请先下载原文档进行浏览。

2015-《百度开放云大数据技术演进历程-朱冠胤》第 1 页

2015-《百度开放云大数据技术演进历程-朱冠胤》第 2 页

2015-《百度开放云大数据技术演进历程-朱冠胤》第 3 页

2015-《百度开放云大数据技术演进历程-朱冠胤》第 4 页

2015-《百度开放云大数据技术演进历程-朱冠胤》第 5 页

下载文档到电脑，方便使用

还有 19 页可预览，继续阅读

本文档由张玉竹于 2022-04-08 10:40:50上传分享

举报

下载原文档(2.66 MB)

收藏分享

给文档打分

评论列表

暂时还没有评论，期待您的金玉良言

最新文档