除夜数据作为 IT 领域的一个概念已被许多人所认同。正如 IT 领域的许多方面一样,熟手在行艺最初由除夜型企业先行使,然后在悉数行使曲线的晚期,中小型企业才最先行使它。除夜数据恍如也经验了沟通的进程。
跟着除夜数据在真实世界中赓续成长,它慢慢被运用于不那末除夜的数据元素。除夜部份尺度以为较小的数据集正直由进程特定于除夜数据架构的体式格式被除夜数据对象处置责罚。
虽然如斯,人们不合以为未来会有更多的数据,而不是更少;更多半据源会将数据发送给企业,数据运动速度将有增无减。这就是除夜数据未来的用武之地。关于这个领域,泛起的一个成就是除夜数据将位于何处(在内部照样在云中)和您必需在哪些时辰斟酌选择行使这些干事。
基于云的除夜数据处置计划的界说
像处置责罚云的除夜部份化决计划一样,准一界说云可以有些辣手。除夜数据领域存在许多不合的云特色,没有一个界说是通用的(但一些界说比其他界说更好)。
首先,让我们来玩一个文字游戏。当传入数据的数目、品种和速度太除夜,致使于难以实时处置责罚和行使当前的关系数据库时,就会抵达除夜数据形态。在 除夜数据项目中安装一些手艺是对处置责罚该前提和供应富有成效地行使该数据的新方法的考试考试,而这意味着需求行使一些硬件并供应一种组织数据以便疾速存 储和疾速读取数据的新方法。这就是除夜数据的实质。
它也是 Apache hadoop、MapReduce 和相反的项目和产物存在的情由。基于云的除夜数据情形需求可以引用内部数据,好比企业成本计划零星和其他内部数据库,活期行使新颖数据来更新它。(这里的内部 泄漏表现除夜数据沙盒之外的地方。)
这一步担负数据的 “存储”。接上去您需求获得一种剖析它将在何处影响营业流程并展现剖析效果的方法。
除夜数据干事需求可以检查数据中央内部的各类不合的数据源,可以将新数据包括在数据中央内,原谅还没有斟酌过的新数据元素,并供应一种剖析和申报一切这些数据的方法。可伸缩性、无邪性和可扩展年夜性方面的需求使它更适合除夜数据情形,而不是云干事。
最先完成基于云的除夜数据项目
这些斟酌成份涵盖了完成除夜数据项目的根抵评价前提。启动、实行和赓续进修,您供应的关于想从除夜数据获得的信息的界说越多,您的实行就越有针对性,您就可以越快地蕴蓄技巧手段集。
1. 对一切机械数据竖立通用的实时索引
这是除夜多半人所以为的除夜数据的焦点;它经常相当于开源项目 Hadoop(参阅 参考资料)。不要将 Hadoop 中的索引与关系数据库中的索引弄搅浑:Hadoop 索引是一种文件索引。是以,Hadoop 可获得许多不合类型的数据。
公司可以已被来自射频 ID (RFID) 挪动、网站点击和其他可以组织化的数据(假定 IT 人员花一些时辰将它们转换为组织化数据并放在关系数据库中)的要求所漂浮。假定您晓得将若何行使这些数据,若何在未来查询和接见它,那末在处置责罚这些提 纲方面中止投资是值得的。
您无需晓得数据的未来荫蔽用途,Hadoop 供应意见决装备。经由进程按原样获得传入的数据,除夜数据将数据界说步骤推迟到了实行剖析时。在不会限制数据的未来行使的情形下,Hadoop 将数据散布在许多干事器上并延续跟踪数据位置。
2. 对实时数据和历史数据的自由查找与剖析
存储数据只是完成目的的路途的一部份。其他一方面是信息需求绝对随意疏忽地被找到。为此,最快的方法是供应一种疾速(在完成方面,而不是呼应时辰方面)查找功用。是以需求找到支持对非组织化数据中止文本查找的对象。Apache Lucene(参考资料)就是一个在除夜数据情形中供应文本索引和查找的经常运用对象。
从扼守轨范上直接获得呼应,这会让人们恍惚地以为一切信息都被准确存储且可以接见。此进程的治理步骤是为存储在散布式节点中的数据内容竖立索引。查找查询,然后并行接见散布式节点上的索引,以便供应更快的呼应。
3. 自动从数据中发明有用的信息
这是收受接管除夜数据计划的一个主要营业启事。就像没法高效地将一切半组织化数据都迁移到关系数据库中一样,实行手动查找和手动申报也会影响剖析效率。
数据挖掘和猜测剖析对象正在疾速向以下倾向成长:可以将除夜数据用作剖析数据起原的数据库,或用作延续扼守交换的数据库。所罕有据挖掘对象都遵照此 目的。某小我一定剖析的用途,检查数据,然后垦荒能供应洞察或猜测的统计模子。然后,需求将这些统计模子安装在除夜数据情形中,以实行延续评价。这部份操 作理应是自动化的。
4. 扼守数据并供应实时警告
寻觅一个对象来扼守除夜数据中的数据。一些对象可以树立被延续处置责罚的查询,寻觅要知足的前提。
我没法列出实时扼守进入 Hadoop 中的数据的一切可以用法。假定除夜部份传入数据都长短组织化数据,而且不适用于关系数据库,那末实时扼守多是最仔细地搜检数据元素的一种体式格式。
例如,您可在将冷冻食物中的 RFID 芯片存储于非冷冻区域时设置一个警告。该警告可直接发送到仓库中行使的挪动配备,预防食物腐臭。
客户在商号中的走动也是可扼守的,可在具有计策性结构的扼守器上播放针对站立在特定商品前的客户的广告。(这个异常新潮,可以略微有点平易近主意味,但完整可以完成。)
5. 供应丁壮夜的专属申报和剖析
相反于常识发明和自动化的数据挖掘,剖析师需求获得接见能力来检索和汇总除夜数据云情形中的信息。具丰除夜数据申报对象的供应商恍如天天都在增多。
一些对象行使了 Apache Hive 和 Hive Query Language(HQL;参阅 参考资料)。HQL 语句相反于组织化查询措辞 (SQL) 语句,许多供应相反气势气宇的除夜数据申报的对象行使了 HQL 和 Hive 接口,经由进程 MapReduce 运转查询。
Apache Pig 是其他一个申报和操作除夜数据的开源项目。它的语法与 SQL 不太一样,更像是一种剧本措辞。它也行使 MapReduce 处置责罚来简化并行处置责罚。
基于云的除夜数据供应商应同时支持来自内部要求者的 Pig 和 HQL 语句。这样,除夜数据存储即可由人们行使本人选择的对象(甚至行使还未树立的对象)来查询。
6. 供应疾速构建自界说仪表板和视图的能力
像传统的商业智能项目的演化一样,当人们可以查询除夜数据并生成申报时,他们进展自动化该功用并树立一个仪表板,以便经由进程时兴的图片一再检查。
除非人们编写本人的 Hive 语句和仅行使 Hive shell,除夜部份对象都有行使查询语句树立相反仪表板的视图的能力。要在除夜数据安装中枚举许多仪表板示例,今朝还为时过早。一种基于商业智能历史的 猜测是,仪表板将成为已汇总的除夜数据的一个主要的内部传递对象。而且从商业智能的历史成长来看,具有优越的除夜数据仪表板对获得和贯串衔接高层导游支持 至关主要。
7. 行使浅易硬件中止高效扩展年夜,以原谅任何数据量
当行使云除夜数据干事时,此斟酌成份更具有哲学意义,而没有若干理想意义。推销、配备和安装用于存储数据的硬件是干事供应商的职责。硬件的选择理应不难。
然则,值得欣喜的是,账单注解除夜数据适合行使浅易硬件。在架构中的一些节点上,“高质量的” 干事器很有用。然则,除夜数据架构中绝除夜部份节点(存储数据的节点)都可放在 “更低质量的” 硬件上。
8. 供应细粒度、基于脚色的平安和接见掌握
当非组织化数据位于关系数据中时,接见数据的庞杂性可以会障碍人们获得数据。罕有的申报对象不起浸染。斟酌收受接管除夜数据是简化庞杂接见的一个有用步骤。不幸的是,一样的平安设置常日没法从现有关系零星迁移到除夜数据零星上。
行使的除夜数据越多,优越的平安性就会变得越主要。最初,平安珍重可以很少,因为没有人晓得若何处置责罚除夜数据(这里略带讪笑意味)。跟着公司垦荒出了更多行使除夜数据的剖析,需求对效果(特殊是申报和仪表板)中止珍重,这相反于珍重来自当前关系零星的申报。
最先行使基于云的除夜数据,意见需求在什么时分(具体来说为申报和仪表板情形)运用平安性。但在最初,剖析师异常自由。这是垦荒新洞察的最佳体式格式。
9. 支持多租户和无邪的安装
云的行使带来了多租户的概念,但这显著不是内部除夜数据情形中的斟酌成份。
许多人对将症结数据放在云情形中感应不安。而主要的是,云供应了最先完成除夜数据项目所需的低成本和疾速安装。恰是因为云供应商将数据放在了具有同享的硬件成本的架构中,成本才会显著下降。
天主是平允的,将数据放在您的干事器上,由其他某小我来治理悉数设置也未尝弗成。然则,在除夜数据需求是间歇性的时辰,这不是一个经济高效的营业模 子。效果会发生发火更高的开支,因为公司将为除夜量余暇时辰付费,特殊在完成第一个项目时期,在剖析师索求、斟酌和意见除夜数据的时辰。
10. 集成已记载的 API 并经由进程它们中止扩展年夜
许多阅读本文的读者可以已完成了一两个除夜数据项目,但没无为除夜数据编写本人的软件接口。请留意,这是有可以的,而且天天都在发生发火。
除夜数据是为供自界说运用轨范接见而设计的。罕有的接见方法行使 RESTful(具象形态传输)运用编程接口 (API)。这些 API 可用于除夜数据情形中的每一个运用轨范,用于治感性掌握、存储数据和申报数据。因为除夜数据的一切根蒂根抵组件都是开源的,所以这些 API 经由了周全地声名而且可以普遍行使。进展基于云的除夜数据供应商准许接见今朝和未来的一切具有适合平安珍重的 API。
最先处置责罚基于云的除夜数据
记住了这十概略害斟酌成份之后,请选择您的除夜数据供应商。什么?还需求更多的信息?
在理想中,除夜数据项目首先会以批处置责罚方法实行我提到的除夜部份操作,将实时操作留到往后处置责罚。谈到批处置责罚,我的意思是因为对象和流程都是智能的,所以除夜数据情形不需求延续运转。建议寻觅准许凭证需求启动和住手干事器实例的供应商,以便最除夜限制地下降成本。
安装您本人的内部除夜数据情形还需求 Java™ 手艺技巧手段和经常运用的 Linux® 或 UNIX® 技巧手段。记住这一点,然后讯问荫蔽的云供应商,意见有若干治理责任需求完成或它的干事有多周全。
要意见若何安装、测试和珍重除夜数据情形,可以接见的一个站点是 BigDataUniversity.com(参考资料),您可以免费注册该站点。站点中长达数小时的视频是按专题来组织的,该站点还为完成许多专题的用户供应了证书。在编写本文时,有一本免费的电子书 Hadoop for Dummies 可供下载。
在列入培训的同时,在一个云供应商的情形中配备一个除夜数据情形实例。BigDataUniversity.com 上的一些培训专题引见了 IBM SmartCloud 中和 Amazon Web Services 上的除夜数据安装和行使。这些云干事(和其他干事)除夜除夜简化了情形的安装和安装。请行使 BigDataUniversity.com 上的培训视频,打败将缺点其他工资首次行使而安装和测试除夜数据的障碍。
侥幸的是,云干事从责任列表中消弭了除夜数据情形中的除夜量珍重成就。显著,这些干事将担负知足硬件和干事器的机房需求。您必需珍重数据,凭证成长需求添加干事器和备用数据存储。
除夜数据对每一小我而言都是一种进修和增进体验。新对象和不合的对象赓续泛起在市场中。商业智能领域现有的供应商正使出千般解数吸引您将他们的对象用于除夜数据后端。
行使基于云的除夜数据情形会使上手变得轻松许多。可以先行使云干事为一个小项目处置责罚除夜数据,富余行使基于云的除夜数据的易于上手的特色。立刻最先着手和进修吧。证实基于云的除夜数据的价值,然后在不久的未来自信地完成更除夜的项目。