任何系统都会有各种各样的问题,有些是系统本身设计问题,有些却是使用姿势问题。HBase也样,在真实生产线上大家或多或少都会遇到很多问题,有些是HBase还需要完善的,有些是我们确实对它了解太少。
Hive和Hbase有各自不同的特征:hive是高延迟、结构化和面向分析的,hbase是低延迟、非结构化和面向编程的。Hive数据仓库在hadoop上是高延迟的。Hive集成Hbase就是为了使用hbase的些特性。
日期:10/19/2016 11:41:55
作者:
随着Web2.0的到来,互联网数据快速增长。大规模数据的采集和处理及应用直接影响着用户体验,决定着企业的发展。比较传统关系型数据库和分布式非关系型数据库两者处理大数据的性能,将本地数据迁移到分布式数据库势在必行。
连接到正在运行的HBase实例使用“hbase shell”命令。该命令位于HBase安装路径的/bin目录下。我这里将bin目录加入到了系统环境变量PATH中。
日期:10/10/2016 10:18:15
作者:
HBase是目前主流的Nosql数据库之,由于其优秀的水平扩展能力,业界常将其用来存储海量的数据。在我们使用HBase的时候,为了节省服务器的存储成本,建议开启HBase的数据压缩特性。
日期:10/08/2016 10:42:14
作者:
在HBase1.1.0发布之前,HBase同集群上的用户、表都是平等的,没有优劣之分。这种’大同’社会看起来,实际上有很多问题。较棘手的主要有这么两个,其是某些业务较其他业务重要,需要在资源有限的情况下优先保证核心重要业务的正常运行,其二是有些业务在某些场景下会时常’抽风’,QPS常常居高不下,严重消耗系统资源,导致其他业务无法正常运转。
日期:09/27/2016 14:17:28
作者:
某些时候,我们在初始化HBase表的同时需要向其中快速导入大量的数据(比如搭建压力测试环境),如果我们通过调用HBase的PUT接口来插入,速度是十分慢的。这个时候我们可以采用BulkLoad的方式来快速导入数据。
日期:09/27/2016 14:16:09
作者:
上篇,我们讲述了Hive的CLI和JDBC,从编程和使用的角度进入了Hadoop生态。这里就介绍下Hadoop DataBase,简称HBase。
日期:09/20/2016 11:05:26
作者:
Tephra 在Apache HBase 的基础上提供了全局致性的事务支持。HBase 提供了强致性的基于行和区域的 ACID 操作支持,但是牺牲了在跨区域操作的支持。这就要求应用花很大力气来确保区域边界上操作的致性。而 Tephra 提供了全局事务支持,可以夸区域、跨表以及多个 RPC 上简化了应用的开发。
日期:09/19/2016 09:50:18
作者:
相信长时间运维HBase集群的童鞋肯定都会对RIT(Region-In-Transition,很多参考资料误解为Region-In-Transaction,需要注意)有种咬牙切齿的痛恨感,旦Region处于长时间的RIT就会有些不知所措,至少以前的我就是这样过来的。
必须使用高亮参数启动Spark-shell,否则当你遍历RDD时会出现如下的Exception
日期:09/06/2016 11:55:53
作者:
HBase自身具有极好的扩展性,也因此,构建扩展集群是它的天生强项之。在实际线上应用中很多业务都运行在个集群上,业务之间共享集群硬件、软件资源。那问题来了,个集群上面到底应该运行哪些业务可以较大程度上利用系统的软硬件资源?另外,对于个给定业务来说,应该如何规划集群的硬件容量才能使得资源不浪费?
|
Digg排行
本周热门内容
|