与更成熟的公司相比,早期的初创公司有着截然不同的分析需求。数据湖基础设施可以使工作变得更容易。
你可能对“数据湖”这个术语并不熟悉,但如果你在早期阶段的初创公司中,你可能很快就会熟悉。
虽然数据仓库和数据集市往往迫使企业进入狭隘的数据范式和孤岛,但数据湖则侧重了更全面和更广泛的分析视角。数据湖为分析数据提供了更具适应性的方法,并强调所有信息的价值,而不是被预先筛选的零散信息。
在大数据行业围绕数据湖的争议往往集中在他们认为的缺点上。数据湖没有结构化、太宽泛和太难管理。无论如何,数据湖具备了使其有独特价值的关键特征,尽管这些特征相对较新,但对初创公司尤其有用。
这是因为对于初创公司而言,丢弃他们所拥有的大量数据可能会导致对市场的了解更少,并可能忽略一些关键趋势。这五个原因凸显了为什么数据湖是初创公司分析范式的重要组成部分,而不是将自己锁定在严格的数据管理实践中。
数据湖将与规模相关的成本保持在较低水平
初创公司开始可能会有较少的数据流和较小的需求,但是当它们开始发展时,这种情况会迅速改变。数据仓库是高度结构的,需要由专业的数据工程师和架构师进行高程度的维护和持续监控。其中包括构建适当的模式以进行分析,更改分析模型,甚至构建正确的结构来存储清理数据。
例如,Meta Networks等公司为企业提供“网络即服务”(Network-as-a-Service)工具,每秒可收集数百万个数据点,随着新客户的加入,数据量呈指数级增长。通过使用Upsolver平台(它可以依赖于更容易扩展的系统,例如AWS的S3云服务器)来构建数据湖,该公司已经能够收集所需的所有数据,而无需预先构建模式和仓库结构。
数据湖消除了数据孤岛
在一家新成立的公司,快速共享数据和执行各种横向分析可以提供洞察力以及新的、意想不到的前进道路。然而,许多早期初创公司为了方便而错误地创建了数据孤岛。信息严重地被分割开,通信和传输数据变得更加困难。
在企业层面,普华永道公司在加州大学欧文分校医疗中心(UC Irvine Medical Center)实施了一个数据湖系统,这极大改善了运营工作。与初创公司相比,医疗机构甚至可能更容易出现数据孤岛,但普华永道公司表示,数据湖可以提供更敏捷的方法。由于数据没有被强制划分为不同模式,该医院已经能够提供更好的分析、更广泛的研究和更快的沟通。
数据湖减少了排序和查询的时间
无论初创公司选择何种数据结构,他们都必须投入一些资源来管理和优化。通常,这意味着花费数小时来设置仪表板、分析算法和数据模式,并要始终对所有这些工作进行管理。这意味着要配备一名全职工作人员,如果他不是专职于这项工作,则他就会放弃其他工作任务来花时间处理数据仓库工作。
由于数据湖具有非结构化特性和原始数据流,因此需要维护的工作量要少得多。与需要配备一名全职人员不同(这是大多数初创公司根本无法负担的),数据湖可以让任何团队成员自己执行临时性的分析,而无需预先进行复杂的清理和结构化过程。重要的是,它还可以显著缩短查询时间。
数据湖包含所有数据
大数据的关键是尽可能多地提供信息来解析和处理,但大多数数据仓库都与这种范式背道而驰。数据仓库通常会过滤掉不符合预定结构的重要数据块,通常会删除掉一些数据点,而这些数据点在不同视角下观察时可能包含关键见解。数据湖提供的价值的源泉之一是,它庞大的数据存储库有不同来源,并提供了独特的方法来进行组合。这种上下文无关的模型在执行预测分析或只是寻找一些所关注的趋势时很有价值。
EMC是很受欢迎的数据湖解决方案之一,已成功应用于医疗服务领域,以改善预测性护理和趋势发现。然而,其如此成功,是因为它可以在不同的配置下研究更广泛的横向数据。与数据仓库(将预定分析算法强加于数据)不同,数据湖拥有全套原始数据,这使初创公司能够根据需求而非技术来执行自己的分析。
数据湖让初创公司通过分析获得创意
重要的是,数据湖可能并不会将企业锁定在分析和见解的特定范式中。数据仓库通常具有重要的用途,但由于其固定性结构,使其应用范围较窄。因为数据仓库需要仔细规划数据流和结构,所以初创公司必须在看到数据之前就决定它的使用方式。
对于一家了解其数据和渠道的公司而言,建立限制性习惯最终可能会对分析大局产生不利影响。另一方面,数据湖能够忽略有关数据的先入之见,同时能够以独特方式探索信息。
数据湖有利于工作取得成功
对于通常以颠覆和创新而自豪的初创公司而言,拥有一个数据的整体观以及拥有基于需求而非限制来执行临时分析的能力,这是一个至关重要的区别。
您的初创公司根本无法准确预测在组织生命周期中很重要的一些特定而有限的指标、信息源和用例。通过利用数据湖基础设施,您的公司及其利益相关者可以重新审视这些决策,并在未来几年开启新的价值层面。