数据目录和机器学习市场的成熟-技术博客-@大数据资讯

　　这是一个大数据的时代。我们被海量的信息所淹没，而企业发现想要实现管理并从中提取价值已经变成了一个巨大的挑战。

　　今天的大数据流不仅包括了巨大的容量、多样性和速度，还很复杂。正如SAS在《大数据的历史和当下的热点》一文中所指出的那样，大数据流的多样性“使得跨系统的连接、匹配、清理和数据转换变得很困难”。

　　找到有价值的见解不在于简单地收集尽可能多的数据，而在于能够找到正确的数据问题。而使用手工流程完成所有工作是不可能的。这就是为什么越来越多的企业开始“转向数据目录，以便实现数据访问的民主化，使组织的数据和知识能够得到管理，然后应用数据策略，并快速激活所有具有业务价值的数据”。

大数据

　　这就是数据目录(有时也称为信息目录)的用途所在。正如这里所定义的，它们可用于授权“用户探索所需的数据源并帮助其理解所探索的数据，同时帮助组织从当前的投资中实现更多的价值”。它实现这一目标的一种方法是，在能够使用或贡献数据的不同类型的用户之间，允许更大程度地访问数据。

　　信息经济学势在必行

　　在2017年底，数据目录的需求急剧增长，Gartner将其称为“一种新的潮流”。它被认为是一种快速、经济的解决方案，可以“对组织中日益分散和无序的数据资产进行盘点和分类，并映射其信息供应链”。之所以需要这样做，是因为“信息经济学”的兴起，它要求像管理其他商业资产一样，对信息进行细致地跟踪。

　　Gartner2018年第二季度的机器学习数据目录报告：take jibes with The Forrester Wave显示超过一半的调查参与者表示，他们已计划建立自己的数据目录。可能他们的动机主要在于他们中的每个组织都包括了至少七个数据湖。正如Gartner对数据目录所解释的那样，数据目录对于提取通常以非分类形式留在数据湖中的“数据的上下文、意义和价值”很有用。

　　Forrester的报告称，在2017年，超过三分之一的数据和分析决策者正在处理1000 TB或更多的数据，而前年这一数字仅为如今的10%至14%。管理如此规模的数据的确是一个日益严峻的挑战，具体来说，特别是下面的两项挑战：

　　1)将现有业务流程合并到源数据中，以便分析和实现洞察力;2)随着数据的增长，对其进行寻源、收集、管理和治理。

　　数据目录可以为企业做什么

　　Gartner指出了数据目录改善组织信息流和生产力的具体方式：

　　•整理和传达组织可用的信息资产清单。

　　•创建通用业务术语表，定义组织数据的语义解释和含义，从而提供中介和解决定义不一致的方法。

　　•支持动态和敏捷的协作环境，使业务和IT同事能够评论、记录和共享数据。

　　•通过沿袭和影响分析来提供数据使用的透明度。

　　•监控、审计和跟踪数据，以支持信息治理流程。

　　•捕获元数据以增强数据使用和重用的内部分析、查询优化和数据认证。

　　•通过捕获、沟通和分析数据的存在、来源、使用环境、需要它的原因、流程和系统之间的流动方式、谁对它负责、它的含义以及它的价值，并在业务的使用中对信息进行上下文的关联。

　　Gartner的报告说，正确识别数据并让组织中的关键人物能够访问这些数据是很重要的，这不仅是为了找到“将数据资产转化为数字业务成果的货币化”方法，也是为了遵守相关法规，无论这些法规是行业内的--如健康保险可移植性和责任法案(HIPAA)或更一般的如通用数据保护法规(GDPR)。

　　加入机器学习

　　但是没有什么是完美无缺的。对于数据目录，问题在于手动构建它们以及需要放置的所有元数据的过程是缓慢而乏味的。这就是机器学习组件的用武之地。

　　Forrester所评估的数据目录被称为MLDC，因为它们利用了人工智能的部分组成之一--机器学习的力量。正如一个平台数据博客所解释的那样，这使得“构建一个持久的元数据存储库，然后应用ML/AI来找出并公开潜在有用的底层数据资产见解”成为了可能。

　　如何选择

　　为了帮助组织评估应该选择哪一个企业的产品，Forrester对排名前12位的MLDC设置了29个评估点。它确定了这个市场的领导者为：IBM、Relito、Unifi Software、Alation和Collibra。表现好的是Informatica、Oracle、Waterline Data、Infogix、Cambridge semantic和Cloudera。而Hortonworks在“竞争者”排名中表现突出。

　　然而，也不应该只看整体排名。这份报告确实列出了每一种方法的优缺点。因此，如果一个特定的特性，如研究和开发，对于一个组织来说很重要，它可以认为Hortonworks与IBM和Colilbra的实力不相上下，因为这三家公司在这方面的得分最高，都是5分，比Alation和Coloudera高2分，比Cambridge Semantics高4分。

　　因此，Forrester报告也建议那些以其报告为指导的人不要想当然地认为排名好的公司就是每个人的好选择。他们应密切注意评估的细节，找出最符合自己要求的产品。