大 数 据 白 皮 书 (2014年) 工业和信息化部电信研究院 2014年5月 版权声明 本白皮书版权属于工业和信息化部电信研究院,并受法律保 护。转载、摘编或利用其它方式使用本白皮书文字或者观点的, 应注明“来源:工业和信息化部电信研究院”。违反上述声明者, 本院将追究其相关法律责任。 前 言 当前,全球大数据产业日趋活跃,技术演进和应用创新加速发展, 各国政府也逐渐认识到大数据在推动经济发展、改善公共服务,乃至 保障国家安全方面的重大意义,纷纷积极出手推动。在全球大数据蓬 勃发展的大背景下,我国也面临难得的发展机遇。如何抓住机遇,将 我国拥有的数据资源转化为经济发展动力,是摆在政府和产业界面前 的紧迫课题。 本白皮书首先追溯了大数据的起源,从新资源、新工具和新理念 等角度探讨了大数据的概念;然后对大数据关键技术、应用、产业和 政策环境等核心要素进行了分析,梳理提出了大数据技术体系和创新 特点,简要描述了大数据应用及产业生态发展状况,分析了各国大数 据政策实践及我国大数据发展的政策环境;最后针对我国大数据发展 存在的问题,提出推动大数据应用、促进前沿技术创新与扩散、开放 政府和公共数据资源、保护数据安全与个人隐私等方面的策略建议。 目 录 一、大数据概念探讨 ................................................................................................... 1 二、大数据关键技术 ................................................................................................... 2 (一) 大数据对传统数据处理技术体系提出挑战 .................................................. 2 (二) 大数据存储、计算和分析技术是关键 .......................................................... 4 (三) 大数据技术创新呈现“原创-开源-产品化”的阶梯格局 .......................... 9 三、大数据应用发展 ................................................................................................. 11 (一) 互联网行业是大数据应用的领跑者 ............................................................ 11 (二) 大数据应用加速向传统领域拓展 ................................................................ 12 (三) 大数据应用呈现初级发展阶段特征 ............................................................ 13 四、大数据产业生态 ................................................................................................. 16 (一) 传统 IT 厂商加快向大数据解决方案提供商转型 ...................................... 16 (二) 云服务商成为大数据处理服务提供商的主体 ............................................ 17 (三) 大数据资源提供商应运而生 ........................................................................ 18 五、大数据政策环境 ................................................................................................. 20 (一) 国外政府从数据、技术和应用三方面推进大数据发展 ............................ 20 (二) 我国大数据发展环境持续完善 .................................................................... 22 六、 问题与政策思考 ............................................................................................... 23 (一) 我国大数据发展面临的问题 ........................................................................ 23 (二) 推动我国大数据产业发展的对策思考 ........................................................ 25 工业和信息化部电信研究院 大数据白皮书(2014) 一、大数据概念探讨 大数据的应用和技术是在互联网快速发展中诞生的,起点可追溯 到 2000 年前后。当时互联网网页爆发式增长,每天新增约 700 万个 网页,到 2000 年底全球网页数达到 40 亿1,用户检索信息越来越不 方便。谷歌等公司率先建立了覆盖数十亿网页的索引库2,开始提供 较为精确的搜索服务,大大提升了人们使用互联网的效率,这是大数 据应用的起点。当时搜索引擎要存储和处理的数据,不仅数量之大前 所未有,而且以非结构化数据为主,传统技术无法应对。为此,谷歌 提出了一套以分布式为特征的全新技术体系,即后来陆续公开的分布 式文件系统(GFS,Google File System)、分布式并行计算(MapReduce) 和分布式数据库(BigTable)等技术,以较低的成本实现了之前技术无 法达到的规模。这些技术奠定了当前大数据技术的基础,可以认为是 大数据技术的源头。 伴随着互联网产业的崛起,这种创新的海量数据处理技术在电子 商务、定向广告、智能推荐、社交网络等方面得到应用,取得巨大的 商业成功。这启发全社会开始重新审视数据的巨大价值,于是金融、 电信等拥有大量数据的行业开始尝试这种新的理念和技术,取得初步 成效。与此同时,业界也在不断对谷歌提出的技术体系进行扩展,使 之能在更多的场景下使用。2011 年,麦肯锡、世界经济论坛等知名 机构对这种数据驱动的创新进行了研究总结,随即在全世界兴起了一 股大数据热潮。 虽然大数据已经成为全社会热议的话题,但到目前为止,“大数 据”尚无公认的统一定义。我们认为,认识大数据,要把握“资源、 1 来源:http://webmarketingtoday.com/articles/ad-anorexia/ 来源:http://www.google.com/about/company/history/,2008 年 7 月谷歌搜索引擎能检索的网页数就突破 1 万亿个。 2 1 大数据白皮书(2014) 工业和信息化部电信研究院 技术、应用”三个层次。大数据是具有体量大、结构多样、时效强等 特征的数据;处理大数据需采用新型计算架构和智能算法等新技术; 大数据的应用强调以新的理念应用于辅助决策、发现新的知识,更强 调在线闭环的业务流程优化。因此说,大数据不仅“大”,而且“新”, 是新资源、新工具和新应用的综合体。 二、大数据关键技术 (一) 大数据对传统数据处理技术体系提出挑战 大数据来源于互联网、企业系统和物联网等信息系统,经过大数 据处理系统的分析挖掘,产生新的知识用以支撑决策或业务的自动智 能化运转。从数据在信息系统中的生命周期看,大数据从数据源经过 分析挖掘到最终获得价值一般需要经过 5 个主要环节,包括数据准备、 数据存储与管理、计算处理、数据分析和知识展现,技术体系如图 1 所示。每个环节都面临不同程度的技术上的挑战。  数据准备环节:在进行存储和处理之前,需要对数据进行清洗、 整 理 , 传 统 数 据 处 理 体 系 中 称 为 ETL ( Extracting , Transforming,Loading)过程。与以往数据分析相比,大数 据的来源多种多样,包括企业内部数据库、互联网数据和物联 网数据,不仅数量庞大、格式不一,质量也良莠不齐。这就要 求数据准备环节一方面要规范格式,便于后续存储管理,另一 方面要在尽可能保留原有语义的情况下去粗取精、消除噪声。  数据存储与管理环节:当前全球数据量正以每年超过 50%的速 度增长,存储技术的成本和性能面临非常大的压力。大数据存 储系统不仅需要以极低的成本存储海量数据,还要适应多样化 的非结构化数据管理需求,具备数据格式上的可扩展性。  计算处理环节:需要根据处理的数据类型和分析目标,采用适 2 工业和信息化部电信研究院 大数据白皮书(2014) 当的算法模型,快速处理数据。海量数据处理要消耗大量的计 算资源,对于传统单机或并行计算技术来说,速度、可扩展性 和成本上都难以适应大数据计算分析的新需求。分而治之的分 布式计算成为大数据的主流计算架构,但在一些特定场景下的 实时性还需要大幅提升。  数据分析环节:数据分析环节需要从纷繁复杂的数据中发现规 律提取新的知识,是大数据价值挖掘的关键。传统数据挖掘对 象多是结构化、单一对象的小数据集,挖掘更侧重根据先验知 识预先人工建立模型,然后依据既定模型进行分析。对于非结 构化、多源异构的大数据集的分析,往往缺乏先验知识,很难 建立显式的数学模型,这就需要发展更加智能的数据挖掘技术。  知识展现环节:在大数据服务于决策支撑场景下,以直观的方 式将分析结果呈现给用户,是大数据分析的重要环节。如何让 复杂的分析结果易于理解是主要挑战。在嵌入多业务中的闭环 大数据应用中,一般是由机器根据算法直接应用分析结果而无 需人工干预,这种场景下知识展现环节则不是必需的。 来源:工业和信息化部电信研究院 图 1 大数据技术框架 3 大数据白皮书(2014) 工业和信息化部电信研究院 总的来看,大数据对数据准备环节和知识展现环节来说只是量的 变化,并不需要根本性的变革。但大数据对数据分析、计算和存储三 个环节影响较大,需要对技术架构和算法进行重构,是当前和未来一 段时间大数据技术创新的焦点。下面简要分析上述 3

pdf文档 2014-大数据白皮书

行业政策库 > 国家部委机构 > 工业和信息化部政策文件 > 文档预览
33 页 0 下载 34 浏览 0 评论 0 收藏 3.0分
温馨提示:如果当前文档出现乱码或未能正常浏览,请先下载原文档进行浏览。
2014-大数据白皮书 第 1 页 2014-大数据白皮书 第 2 页 2014-大数据白皮书 第 3 页 2014-大数据白皮书 第 4 页 2014-大数据白皮书 第 5 页
下载文档到电脑,方便使用
还有 28 页可预览,继续阅读
本文档由 张玉竹2022-04-08 11:36:53上传分享
给文档打分
您好可以输入 255 个字符
安信天行文库的中文名是什么?( 答案:安信天行 )
评论列表
  • 暂时还没有评论,期待您的金玉良言