大数据持续火热下,很多时候还是需要冷静思考下对于对于小团队在大数据方向上是否还有很好的创业机会或产品研发方向,我们也看到有个别创业团队已经逐渐发展和成长起来,特别是围绕大数据平台的整个软件生态环境也逐步走向成熟,企业对大数据的需求也逐渐出现。
两个方向
对于大数据方向研发主要还是分为两个方向,一个是纯大数据技术平台,一个是围绕大数据技术的分析和应用平台。纯技术平台当前看到的情况还是围绕 hadoop开源生态环境进行的一些周边功能的开发,以后hadoop模块能力的增强;而对于大数据分析和应用重点则是在对已有大数据资源的掌控情况。
对于大数据技术平台,最重要的还是在海量异构的数据环境下的实时性问题,不管是数据的抽取同步,数据的分布式存储,到后续的OLAP分析,都在解决传统 BI应用下无法解决的实时性问题。包括了大数据流处理, MPP+ShareNothing架构,并行计算,内存处理等都是围绕以上目标服务。当前更多的机会还是围绕hadoop开源生态环境进行,比如小团队也可以做类似hadoop发行版相关的事情,可以基于hadoop平台做相关的管理和监控分析,分析平台。可以去解决当前hadoop体系下没有很好解决的问题,比如增量实时同步的数据采集,比如并行算法,比如跨库的查询和聚合,或者说在DB库上增加一个缓存层以进一步提升性能等,以上这些方面都可以去做。以上这些方面都可以去做,但是关键的问题还是这种模式的研发是一个技术团队的技术驱动型研发模式,更多的是希望产品或技术去推动市场,但是当前在市场环境不成熟的情况下,或者说我们根本就没有深入的了解到企业对大数据本身的业务需求或应用场景的情况下,很可能是虽然产品本身技术先进,但是并无法转换为客户和市场需求。很多的创业案例都在说明一个以技术驱动型的创业团队,期望以技术驱动来推动产品和市场,而不是市场驱动研发,往往最后都中途夭折。特别是对于大数据,我们一直在强调业务价值的实现往往才是大数据4V里面最重要的一个V。
大数据技术平台层面
前面已经讲过,在大数据环境下最重要的还是大数据资源拥有者而不是技术拥有者。因此对于大数据技术平台层面,比较好的方式还是能够找到拥有资源的企业,运营商或互联网厂商合作。但是这种合作方往往又很难早,真正有钱的企业往往又很看重厂商本身的品牌和规模实力。这个虽然很难,但是我个人认为还是有机会,还是有一些企业必要认可团队和技术的,如果前期能够多参加企业组织的各种评测和poc验证,能够以免费或试验局的方式逐步进入,逐步树立自己的产品案例和品牌,不要想着一开始就能快速盈利。对于一些成功的大数据公司或团队,我们也要看到其实开创者的综合素质和资源相当丰富,包括很多本身就是从 intel,hp,淘宝,百度等企业出来创业的,不仅仅是有前期的就技术沉淀和积累,更加重要的是本身就有比较丰富的人脉资源,能够快速的解决第一批用户的问题。
如果选择的方向是围绕大数据场景的大数据分析和应用平台,那首先要解决的问题是资源问题,即大数据资源从哪里获取,包括我们看到的互联网电商平台,电信运营商,政府行业,这些企业里面的数据往往很难真正的提供或开放出来。当然你也可以去找这些企业或相关部门合作,一个提供资源,一个提供技术平台和产品,双方共同合作运营。其次就是互联网大数据,对于互联网大数据往往具备了足够的开放性,那么就需要分析实际的用户本身对大数据的需求,究竟需要采集哪些大数据进行存储和处理,抽象和聚合,形成有价值的大数据分析视图或实时事件驱动框架。还有就是依托一个已经成型的生态环境来设计和开发增值的应用,类似电信运营商提供的开放平台,百度大数据引擎,淘宝,腾讯微信,新浪微博等各种开放平台,这些平台有足够的数据和成熟的生态环境,虽然产品无法独立,但是可以很好的解决产品前期发展过程中的资源和客户问题。
即使到现在,不管是各个企业推出的hadoop发行版还是大数据平台,都可以看到更多的还是各个大数据相关技术组件的融合,这些技术组件本身如何根据客户的大数据场景融合在一起,又如何去实施一个大数据项目才是最关键的内容。因此大数据平台本身更像是一个技术平台或开发实施平台,而不是类似传统业务系统的应用平台。从这个层面来讲,如果一个团队有很强的实施能力,也完全可以基于hadoop平台去给客户做大数据项目的实施,在有了较多的成功实施案例后再来考虑如何形成自己的大数据管控平台,如何将实施过程中遇到的问题解决点并融入自研的管控平台里面。