Gartner发现,虽然64%的企业正在投资于大数据,但约60%不知道如何处理其数据。
真正的问题不是在于技术,而是在于过程。与所有IT投资一样,大数据成功的关键在于迭代,而不是关于hadoop、NoSQL、Splunk或者任何特定的供应商或技术。而是关于迭代。
大数据,大困惑
虽然根据Gartner调查显示,自2012年以来,拥抱大数据项目的企业数量已经从58%增加到64%,但真正了解如何处理大数据的企业并不多。
这并不奇怪,因为我们确实很容易从数据中获取效益。我们可以很容易地说“可操作的见解”,但很难搜集这些数据。这也是为什么数据科学家的收入超过其他职业的原因,其平均收入为123000美元,而且还会继续上升。
数据科学家需要同时具有统计学、数学和编程技能以及域知识,这些很难在单个人身上看到的知识。Gartner分析师Svetlana Sicular表示,其中,域知识最重要,因为这涉及从数据中获取价值。
他表示:企业内部某些员工比神秘的科学家更了解其自己的数据,而学习Hadoop比了解企业业务更容易,那还有什么呢?建立一支强大的技术和业务专家团队,并且有着支持创新的管理层来创造一个安全的环境。
这种“针对创新的安全环境”能够为数据从业人员提供空间来发展。
创新是迭代
对于大数据项目至少有两个主要问题。第一个是,很多公司认为它们是项目。大数据并不是一次性的项目:这是一种收集、分析和使用数据的文化。今年早些时候发表的《大到不容忽视:大数据商业案例》作者Phil Silmon表示:“你认为亚马逊、苹果、Facebook、谷歌、Netflix和Twitter将大数据作为项目吗?不是的,这是他们DNA的一部分。”
企业面临的第二个大数据问题是,他们认为这是技术问题。虽然大多数强大的大数据企业是开源的,构建的大数据应用程序并不像你下载的Hadoop或NoSQL那么简单。正如IDC分析师Carl Olofson所说:
企业不应该太快选择任何大数据技术作为他们解决特定问题的解决方法,无论是Hadoop还是其他技术,企业应该仔细考虑所有可选方案,并为大数据技术制定一项战略。
企业不应该只是向大型供应商支付大笔资金来开始大数据项目(这种做法无疑是错误的),正确的做法是从小处着手。正如Thomas Edison所说,关键在于要快速失败,“我并没有失败,我只是发现了10000种行不通的方法。”
大数据是关于提出正确的问题,这强调了域知识的重要性。但在现实中,你可能无法收集正确的数据和提出适当的问题。关键在于使用灵活的开放数据基础设施,让你能够不断调整你的方法直到成功。
不仅是关于大数据
正如上所述,这种迭代方法并不只是针对大数据。理想情况下,大多数IT都应该遵循这种做法。财富50强某银行的高管表示,“产品稳定性来自于更频繁地发布代码,而不是更少地发布。”当然,这是灵活开发背后的主要思想。
灵活开发还需要可以轻松地拥抱动态模式(例如Hadoop支持的模式)数据技术的辅助,正如DoubleClick和MongoDB创始人Dwight Merriman所说:
“现代开放是灵活开发。我们谈论的是大量重复的非常小的版本。我们每天都会发布一个版本;然后,我们改变它。产品经理会说,‘不,这不是我想要的’,于是我们又一次进行改变。这种迭代的概念对数据库和数据层有着有趣的影响。如果你每天都有新的架构迁移,这会很痛苦。但如果我们在存储方面非常灵活,这非常适合这个迭代的概念。”
换句话说,灵活的迭代是现在创新的核心。虽然技术有助于这种转变,但这更多的是文化转变,而不是技术转变。想要创新,你和你的企业需要开始考虑将数据作为你日常业务的重要组成部分,而不是你编码的项目。
只要你认识到这种文化将需要时间来构建,并需要经历大量失败,你也可以像Facebook和谷歌那样将大数据变成大业务。