3. 网络存储技术的带宽瓶颈问题
(1)问题描述
网络存储主要是指利用网络附加存储(network attached storage,NAS)技术和存储区域网络(storage area network, SAN) 技术的存储。
NAS通常以NFS、CIFS等传输协议为主。由于这些协议在设计之初主要考虑的是稳定性, 因此,其物理带宽的利用率有限,在应对大数据传输时会显得力不从心。如千兆以太网的利用率最高大约只有不到50%,万兆以太网的利用率最高时略髙于 50%,也就是说,千兆和万兆以太网的物理带宽为125Mbit/s和1250Mbt/s, 但的实际带宽利用率分别只有60Mbit/s和600Mbit/s。
SAN分为IP SAN 和FC SAN。 IP SAN和NAS一样,由于是基于IP协议, 其物理带宽的利用率也不高, 通常仅略高于50%。FC SAN在设计之初就考虑了高效率性,因此其带宽利用率可以达到80%-90%。
在大数据时代,有时需要极高的带宽,如4K髙清电影的一路视频流就需要大约的1.3Gbit/s带宽,如果有10台这样的工作站需要共享和协同工作,则需要存储系统能提供13Gbit/s的带宽, 这对于磁盘阵列存储系统来说是一个很大的挑战,主要原因如下。
一方面,目前大多数商用磁盘阵列系统的设计是针对传统应用的,如数据库、电子邮件、办公室应用等,IOPS(每秒处理IO的次数)和稳定性是它们的主要设计目标;大数据所需的高带宽并非其设计目标,因此,要实现高带宽非常困难。
另一方面,近几年出现了专为大数据设计的磁盘阵列系统,然而目前市面上能采购到的单个磁盘阵列最大只能提供5Gbit/s左右的带宽。这时必须有一种架构或机制来绑定多台磁盘阵列,实现带宽聚合,这样才能满足前面提到的带宽需求,而这也难以实现。
(2)解决方法
对于以太网以及NFS、CIFS等协议效率低的问题,解决方法是采用高效的、可以充分发挥以太网带宽的传输协议。目前,比较流行的这一类新兴传输协议和产品有开源的hadoop文件系统、开源的Lustre文件系统和商用的StorNext存储系统。
StorNext存储系统采用自有的DLC架构和协议,相比和等协议它极大地减少了传输分组中的控制信息,从而可以传输更多的实际数据。StorNext DLC存储系统极大地减少了用于传输控制的额外开销,在普通的IP网络中实现了较大块的数据传输,网络带宽利用率得到显着提升。此外,控制信息的减少也释 放了CPU的负载;块变大使得文件系统的碎片减少,从而进一步提升存储性能。
对于光纤存储网络的聚合,必须采用专用的文件系统才可以实现。目前比较成熟、稳定的商用产品有Quantum StorNext存储系统、IBM GPFS、蓝鲸文件系统等。
此外,目前主流的、通用型的磁盘存储系统本身并非为大数据设计,几乎清一色都是为数据库等传统应用设计的,其带宽无法满足大数据的需求。因此,大数据需要 针对大数据特点、专业性磁盘存储系统,目前常见的产品有Quantum StorNext存储系统、DDN的磁盘存储系统等。
4 结束语
现有主流存储技术在应对大数据时会面临很多技术问题,本文论述的仅是一些主要的具体问题。除了具体的技术问题,整体架构设计上的问题也有待探讨和研究,如 目前一些要求较为极端的大数据系统甚至彻底抛弃了传统“ 磁盘文件系统”的存储架构, 采用“ 云存储” 架构。
此外, 如前所述,本文仅探讨大数据中的一种,即由仪器产生和记录下来的这一类大数据, 其他类别的大数据在存储层面产生的问题不同,有待进一步探讨和研究。