不管你接受不接受,大数据时代还是来临了。清华同方数据资源工程事业部副总经理郭子龙接受采访时称,大数据蕴含价值已经毋庸置疑,但在急于获取其价值时,往往对整体规划认识不到位,导致数据越大,麻烦越大,这种现象尤其表现在企业级应用方面。原来先堆砌后整理的方法已不可取,如何把海量数据有条理的存储起来是目前企业首先需要考虑的问题。
郭子龙认为,有的数据组织、装载的比较好,很容易去找到,但是有的只是单纯把数据堆砌、集中到一起,每次用的时候,都需要重新的寻找,这无形中增加了运维成本和服务器压力。
郭子龙说,从存储方面来说,存储空间不用考虑,现在这一块都很廉价,不会有太大的压力,主要是存储方法。
谈及存储方法,郭子龙说,重要的一点是要根据组织的核心需求及其分解建立起标准框架——大数据容器。数据海量,先规划出组织应该具备什么数据,在此基础上分析已有什么数据,欠缺什么数据。
“我们需要把流转过程中的每一份数据描述清楚,可以从多个角度去描述,有技术角度,有业务角度,还有数据自身角度,这就是我们谈到的用元数据去描述我们的数据,将每一笔数据都变成可读。”郭子龙说。
建立起框架后,还需要数据集成。郭子龙认为,数据集成更优于系统集成或业务集成,因为数据它是在一个根本层面,更为符合第一性原理,重事实、轻假设;数据集成还有一些好处,就是把数据集成后,可以存储到数据库中,可以被无限次的重复利用。
郭子龙说:“在大数据环境中,数据之间的轻度相关性要远远多于直接因果关系,将这些轻度相关性累加起来就变得举足轻重,这是大数据应用的一个根本特征。”
“同方数据资源体系是以指标体系为标准,在注重自上而下逐级关联的同时,还强调平行数据之间的关联。”郭子龙说。
郭子龙说:“同方数据资源体系做的不仅仅是数据整合、数据分析,它的最大价值是:告诉用户该有什么东西,然后提供方案规划布局,而不是说怎样把你现有的数据组织起来。”郭子龙认为,先规划后存储是未来大数据发展的一个趋势。
人们在应用大数据,享受大数据带来的便捷同时,安全风险也伴随其中。当问到数据安全问题时,郭子龙说:“我认为在大数据环境下,数据安全是一个相对的概念,过于注重数据安全,数据的价值就难以体现出来,我们不能因噎废食。”
郭子龙提出优化方案,他说可以对大数据做简项处理,数据分权限,把用户姓名、联系方式等涉及隐私问题设立高权限屏蔽掉,其余数据仍可以公开供行业分析、利用。
同方数据资源体系的五大特征
1、将数据从业务中分离出来,使其独立存在自成体系
2、基于远景蓝图规划,同时兼顾现实情况
3、强调数据相关性,非简单因果关系
4、明确目标导向,优先解决主要矛盾和确定性问题
5、从宏观数据、关键指标数据、异常波动数据入手洞悉数据