即将逝去的2013年,被认为是具有跨时代意义的“大数据元年”。在这一年,大数据比以往任何时候都要宝贵,甚至成为可以与石油资源相媲美的新能源,大数据被认为是继信息化和互联网后整个信息革命的又一次高峰。然而,大数据不是口号,需要更多的企业付诸实践,从单调的数据中挖掘出潜在价值。
年初的一项调查曾指出,28%的全球企业和25%的中国企业已经开始进行大数据实践。为了进一步了解中国企业大数据应用的真实情况,IT168近期联合ITPUB、ChinaUnix展开了一项有关大数据应用与趋势的专项调查,揭示大数据给企业带来的挑战及其解决之道。
此次调查于2013年9月30日正式启动,历时一个半月,通过线上线下两种途径回收问卷500余份,人群覆盖数据架构师、数据库管理和运维工程师、数据库开发工程师、数据分析师、研发总监和IT经理等技术人员。
调查主要结论:
1. 每月新增数据规模在500G以上的企业由2012年的16.67%,增长到18.11%。虽然拥有大数据的企业比例有所上升,但与预测中数据增长速度还有很大差距。
2. 选用国产大数据产品的企业仅占5.61%,国产厂商若抓住大数据和信息安全的重大机遇,将迎来成长的春天。
3. 企业认为大数据的存储和处理过程中三个最大的难点是数据安全、系统性能瓶颈和数据类型多样化。
4. 在大数据时代,企业面临的最大挑战是缺乏专业的大数据人才。
5. 针对非结构化数据,企业目前最迫切需要解决的是如何对这些数据进行分析。
6. 当前已经部署大数据的企业达到21.89%,计划1年内部署的占27.92%,2014年将是大数据部署的高峰期。
7. 企业在大数据选型的过程中最先考虑的三个因素是产品的性能、服务与支持水平和与其他应用的兼容性。
8. 大多数企业选择大数据产品或解决方案的类型是大数据分析软件。
9. 被调查者最关注的大数据技术,排在前五位的分别是大数据分析、云数据库、hadoop、内存数据库,以及数据安全。
10. 被调查者认为在大数据分析中最重要的三个功能,分别是实时分析、丰富的挖掘模型和可视化界面。
一、企业大数据应用现状
如何定义大数据?这是一个仁者见仁、智者见智的问题。主流的有“3V”模型,即数量(Volume)、速度(Velocity)和种类(Variety);还有Gartner的定义,即大数据是超出了常用硬件环境和软件工具在可接受的时间内为其用户收集、管理和处理数据的能力。
庞大的数据量无疑是大数据最明显的一个特征。有预测称,全球信息量正以每年59%的速度增长。企业的数据规模是否达到难以承受的程度?在去年的调查中我们就曾对企业每月新增数据规模进行摸底,结果显示企业的数据规模不断增大,但还未达到企业无法掌控的程度,每月新增数据规模在500G以上的企业占到16.67%。
▲企业每月新增数据规模调查
今年的情况又是如何呢?从上图可以看出,被调查者所在企业每月新增数据规模在10G以下的占到26.79%,11-100G的占到41.89%,101-500G的占到13.21%,500G以上的达到18.11%。
对比去年的结果可以看出,企业每月新增数据规模在500G以上的由2012年的16.67%,增长到2013年的18.11%,同比增长8.64%。拥有大数据的企业比例有所上升,但与预测中数据增长速度(59%)还有很大差距。
▲企业选用大数据厂商调查
企业更青睐哪家大数据厂商?或许从现有产品的部署情况可以看出端倪。从上图可以看出,排在前六位的的厂商分别是IBM(18.74%)、Oracle(18.33%)、SAP(11.35%)、Microsoft(9.71%)、SAS(7.52%)和NetApp(7.52%)。
与2012年的调查数据相比,Oracle从27.93%下降到18.33%,一家独大的状况终止,取而代之的是遍地开花,各个厂商所占份额相对平均。前三位中IBM和SAP份额增长最为迅猛,分别由15.99%和7.66%增长到现在的18.74%和11.35%。
在今年的调查中,新增了国产厂商的选项。相比国外的几家IT巨头,国产厂商的占有率仅为5.61%。今年震惊一时的“棱镜门”事件给企业信息安全敲响了警钟,也给国产厂商带来巨大的机遇和挑战。大数据和信息安全领域的需求激增,国产厂商将迎来成长的春天。
二、企业大数据痛点分析
多年前,企业关注信息化和互联网化,近几年关注更多的是云计算、移动化和社交化。无论哪种技术趋势,都给企业的数据处理和分析带来不少难题。数据量的激增、数据多样性和复杂性、数据安全的问题,都成为企业面临的挑战。为了进一步了解企业的真实需求,此次调查针对大数据时代的企业痛点进行分析。
▲企业大数据的存储和处理难点调查
从上图来看,企业在大数据存储和处理上的难点分布比较均匀,所占比例最高的为数据安全(18.98%),排在第二的是系统性能瓶颈(18.42%),第三位的是数据类型多样化(18.01%)。其他还有数据分析效率低(15.24%)、数据读写瓶颈(14.96%)和存储压力(14.40%)。
选项之间的差距非常小,也说明这六项都被认为是企业数据存储和处理的难点,其中数据安全是企业最关注的问题。在大数据环境下,很多企业正在重新思考信息安全策略,保护数据资源不被侵犯。
▲企业在大数据时代面临的挑战
在大数据时代,企业面临的挑战可以从上图中看出一些端倪。缺乏专业的大数据人才(26.99%)成为企业面临的最大挑战,其次是非结构化数据的分析和处理(26.65%)、传统技术难以处理大数据(25.27%)以及新技术门槛过高(21.13%)。
大数据相关人才的欠缺将会成为影响大数据市场发展的一个重要因素。据Gartner预测,到2015年,全球将新增440万个与大数据相关的工作岗位,且会有25%的组织设立首席数据官职位。大数据的相关职位需要的是复合型人才,能够对数学、统计学、数据分析、机器学习和自然语言处理等多方面知识综合掌控。未来,大数据将会出现约100万的人才缺口,需要社会、高校和企业共同努力去培养和挖掘。
▲企业针对非结构化数据的挑战
面对文本、图片、视频等非结构化数据,企业并不擅长处理。从上图的调查结果可以看出,企业目前最迫切需要解决的是如何对这些数据进行分析,所占比例达到38.96%。其次是与其他数据源进行集成(32.50%)、如何保存这些数据(14.72%),以及数据安全问题(13.82%)。
《驾驭大数据》一书曾写到,数据的核心是发现价值,而驾驭数据的核心是分析。分析是大数据最关键的环节,尤其对于传统方式难以应对的非结构化数据,人们最先想到是把它们转化为结构化数据,然后再处理和分析。
与企业对结构化数据安全性的关注不同,非结构化数据的安全问题在企业中缺乏应有的重视。但据统计,高达80%的商业数据均以非结构化的形式保存。非结构化数据的安全问题也迫在眉睫,企业需要提前做好预警和规划。
三、企业大数据选型规划
毋庸置疑,大数据是2013年最热门的话题。热闹之余,我们还应该冷静的思考一下,企业是否需要部署大数据、需要部署哪种类型的大数据,以及如何选择适合的解决方案,需要做一个有针对性的选型规划。
根据今年的一项调查显示,全球企业软件支出近300亿美元,相比2012年增长6.4%,预计2014年企业支出将向大数据倾斜,尤其在企业内容管理、数据集成和数据质量工具三个方面。
▲部署大数据应用规划调查
从国内企业大数据应用的现状和规划来看,情况有什么不同呢?通过上图可以看出,目前已经部署大数据应用的企业所占比例达到21.89%,计划1年内部署的企业占27.92%,计划2年内部署的企业占14.34%,没有相关计划和不确定的企业分别占11.32%和24.53%。
大数据时代,企业已经逐渐意识到数据的重要性,也慢慢开始接受从传统数据库到大数据分析的转变。但是大数据最大的难点就是落地,需要与业务需求相结合,选择一套合适的大数据解决方案。
▲大数据选型影响因素调查
从上图可以看出,企业在大数据选型的过程中最先考虑的三个因素是产品的性能(19.79%)、服务与支持(15.20%)和兼容不同应用(13.94%)。其次是产品的价格(13.16%)、产品的易用性(12.18%)、支持移动化(11.11%)、所属厂商及品牌(7.80%),以及是否开源(6.82%)。
产品的性能排在第一位是毋庸置疑的。排名在产品价格前面的服务与支持,却似乎印证了IT厂商向服务提供商转型道路的正确性。另外,随着移动化的不断深入,支持移动版的大数据解决方案,将成为未来趋势。
▲大数据产品或解决方案类型调查
除了产品选型时考虑的因素,企业选择什么类型的大数据产品或解决方案更适合自己呢?从上图可以看出,选择大数据分析软件的企业占32.05%、选择大数据整体解决方案的占28.96%,选择基础架构产品的占28.38%,最少选择的是大数据一体机,所占比例达到10.62%。
除了前文所述的大数据分析的重要性之外,我们还可以看到大数据一体机没有想象中那么受欢迎。据业内人士透露,大数据一体机往往针对某一业务流程设计,缺乏普适性,且价格昂贵,不是一般企业能够接受的。所以目前的大数据一体机往往针对成熟的业务流程,能极大的简化部署和维护工作。
四、企业大数据应用趋势
在很长的一段时间中,只要一提到大数据,人们的脑海中总会浮现出Hadoop,它几乎成为大数据的代名词。但其实大数据的技术领域很广,涉及数据获取、整合、治理、分析、探索、汲取智慧的方方面面。
▲大数据技术趋势调查
从上图可以看出,被调查者最关注的大数据技术中,排在前五位的分别是大数据分析(12.91%)、云数据库(11.82%)、Hadoop(11.73%)、内存数据库(11.64%),以及数据安全(9.21%)。其次是NoSQL(8.21%)、数据仓库(8.21%)、数据集成(7.94%)、商业智能(7.13%)、列式数据库(5.96%)、大数据(数据库)一体机(3.52%),以及NewSQL(1.71%)。
令人欣慰的是,Hadoop已不再是人们心目中仅有的大数据技术,而大数据分析成为最被关注的技术。从中可以看出,人们对大数据的了解已经逐渐深入,关注的技术点也越来越多。
▲大数据分析功能调查
既然大数据分析是最被关注的技术趋势,那么大数据分析中的哪项功能是最重要的呢?从上图可以看出,排在前三位的功能分别是实时分析(21.32%)、丰富的挖掘模型(17.97%)和可视化界面(15.91%)。其次是预测分析(13.10%)、社交数据分析(12.12%)、云端服务(11.69%),以及移动BI(7.90%)。
2012年也曾做过类似的调查,当时选择丰富的挖掘模型(27.22%)比实时分析(19.88%)多7.34%。短短一年时间内,企业对实时分析的需求激增,成就了很多以实时分析为创新技术的大数据厂商。
总结
本调查针对2013年大数据应用现状和趋势展开,从调查结果可以看出,企业在未来一两年中有迫切部署大数据的需求,并且已经从一开始的基础设施建设,逐渐发展为对大数据分析和整体大数据解决方案的需求。与此同时,大数据还面临人才的缺乏的挑战,需要企业和高校联合起来,培养数据领域的复合型人才,帮助企业打赢这场“数据战”。