2015-10-15 2015-10-15 开源大数据在Facebook与Dropbox的实践邵铮前Dropbox/Facebook研发经理 Apache Hadoop PMC成员关于我自己  时间：职业经历 [开源软件]  2005-2008：Senior Software Engineer, Yahoo Web Search [Hadoop]  2008-2014：Senior Engineering Manager, Facebook    2008-2010：Staff Software Engineer, Data Infrastructure [Hive] 2010-2012：Engineering Manager, Data Freeway [Scribe] 2012-2014：Senior Eng Manager, Database Engineering [MySQL, RocksDB]  2014-2015：Engineering Manager, Dropbox [MySQL, Hive, Presto, Scribe, RocksDB]  2015-Now: Senior Engineering Manager, Data Infra, Uber [a lot more] 关于我自己 (2) 2008-2012:  Hive创始团队成员 2009-Now:  Apache Hive PMC Member Apache Hadoop PMC Member HDFS, Map-Reduce的Committer 2013-2014: Now: 支持我的团队开发和开源RocksDB 关注开源项目的社区、生态、与创业关于我自己 (3)  开源软件的受益者  开源软件的贡献者  开源软件的信徒开源软件的作用    对个人：  增强Impact, Influence  促进职业发展，有机会直接成为创始人对公司：  最大化投资回报率(ROI)  招聘与长期维护对社会：  提高生产效率，减少重复的轮子  增进优胜劣汰下面的章节  数据仓库  流数据处理  NoSQL  Dropbox的开源大数据策略  展望未来数据仓库 Hadoop的诞生   2006年，Yahoo 为什么投资开发Hadoop?  与Google的搜索引擎大战  薄弱的基础架构急需更新 Yahoo为什么用开源的方式来开发Hadoop?  Doug Cutting  行业第二的最优策略是联合所有人来挑战行业第一 12 Hadoop的先天缺陷   接口：底层接口优先  Map-Reduce功能强大但是不容易使用  Cascading, Pig是为engineer和scientist设计的性能：为Big Job而优化，忽略了Small Job的overhead  Schedule时间, JVM启动时间, 1秒/数秒一次的heartbeat  可扩展性大大优于性能 Facebook的数据处理需求  2007-2008年的状况     原始数据量急速上升 Oracle RAC 超大规模数据仓库的需求  长期可以支持Facebook 2008年数据量的1000x  使用对象是engineer, scientist, 和analyst (both technical and non-technical) 商用数据仓库无法满足如此庞大的scale  TeraData, Netezza (IBM), Aster Data (TeraData), GreenPlum (EMC) Hive的诞生    为什么Facebook要开发Hive?  CTO Adam D’Angelo非常重视data-based decision  决不能让系统的scalability限制了业务的发展为什么基于Hadoop开发Hive？  站在巨人的肩膀上，直接解决了scalability的问题  Hadoop的开源社区非常强大 Hive最大的创新在哪里？  SQL on Hadoop Hive与Pig之争  Pig Team：   Hive Team：   你们的代码性能太差，我们等不及。 “Does it really matter to reinvent the wheel?”   我们早就有计划要做SQL。你们为什么不在Pig基础上做SQL? No! As long as your project wins. “The best way to work in open-source is to compete to death.” – a senior leader in the Hadoop ecosystem Hive发展过程中的重要决定  发行    推广     作为Hadoop的子项目发行升级为Apache顶级项目各大会议的演讲 (Hadoop Summit, Hadoop World, Hadoop in China) Papers – 获得学校和研究院的支持 (Berkeley, Yale, OSU, 中科院计算所等等) Meetup，各大公司的合作 (AWS, Netflix, Taobao, etc) 即装即用   内置Derby数据库邮件列表/JIRA的支持 Hive简要架构 HDFS Map-Reduce Tachyon Tez Spark Hive CLI / Beeline Web UI Browse / Query / DDL Management Hive QL Parser/Planner Optimizer/Execution FileFormat /SerDe RC/ORC/Parqu et Hive Metastore Server Thrift Hive Metastore Derby / MySQL Hadoop数据仓库图解 Business intelligence [Tableau, Microstrategy] Web UI / CLI / Queries [Hive/Spark/Zeppelin] Analytics for users [HighCharts, D3] Data Mart [Vertica, MemSQL] Hadoop Data Lake Database Workflow Management [Oozie, AirFlow, Pinball] Log / Streaming Data [Kafka, Flume] Web/Mobile Servers 新一代开源大数据架构 [开源软件] 商业分析平台产品分析平台工程分析平台公司仪表盘 A/B Test平台推荐系统商业智能 BI 多维度分析平台 [Kylin, Presto] 机器学习 [MLLib, H2O, Weka] SQL分析平台社交、位置分析 [Giraph, Hadoop-GIS] Tableau, Microstrategy 数据超市Data Mart Vertica, [MemSQL] 工作流数据建模 [AirPal, Zeppelin, HUE] [Airflow, Chronos, Pinball, Oozie] 商业、产品、工程的数据定义，如Revenue, MAU, CTR 元数据库/表/列/注释/静动态关系/负责人等，存储于[Hive Metastore] 数据湖 [Hive, Spark, Impala, Pig, Cascading, Tez] + [HDFS + YARN/Mesos] 数据导入数据源 [Gubblin/Camus, Sqoop, etc] Log [Kafka/Flume, ActiveMQ] Database [MySQL, NoSQL etc] Hive使用中出现的三大问题  数据延迟太大   查询延迟太大   流数据处理交互式查询 Map-Reduce框架影响了性能  新的框架：Spark RDD，Apache Tez

2015-《开源大数据在Facebook与Dropbox的实践-邵铮》

安全研究库 > 网络论坛材料 > 2015Qcon > 文档预览

45 页 0 下载 31 浏览 0 评论 0 收藏 3.0分

温馨提示：如果当前文档出现乱码或未能正常浏览，请先下载原文档进行浏览。

下载文档到电脑，方便使用

还有 40 页可预览，继续阅读

本文档由张玉竹于 2022-04-08 10:49:44上传分享

举报

下载原文档(1.40 MB)

收藏分享

给文档打分

评论列表

暂时还没有评论，期待您的金玉良言

最新文档