众所周知,非结构化数据很难管理。但是,当组织的非结构化数据资产超过PB阈值时,控制数据集将带来一系列全新的挑战。
大多数传统的网络附加存储(NAS)系统都难以管理100 TB的非结构化数据集,而管理多PB数据超出了他们的能力范围。当前网络附加存储(NAS)系统的局限性导致许多IT专业人员认为答案将是对象存储系统。问题在于,尽管对象存储可以扩展以满足容量需求,但在性能方面可能不足。
IT专业人员在试图找到支持PB级非结构化数据集的存储基础设施时面临的挑战之一是,须将需求作为一个整体来考虑,因为所有元素都需要协同工作。
采用全闪存存储不切实际
不可否认的是,在过去的五到六年中,闪存的成本已大幅下降,但是机械硬盘存储成本仍然很低。同时,对非结构化数据的性能要求仅在过去几年中有所提高。现代的非结构化数据存储系统需要很快速地处理元数据和实际数据。尽管一些全闪存供应商声称对性能的需求胜于对容量的需求,但在PB级的环境中,采用PB级或更多的闪存介质是不切实际的。
现代的非结构化数据存储系统需要智能地使用闪存和机械硬盘进行存储,并根据需要在两个存储层之间自动移动数据。这些系统可以从较低的闪存成本中受益,以增加闪存容量并减少缓存丢失的影响。但他们也需要利用机械硬盘存储来控制成本。现代的非结构化数据存储系统还需要利用云存储来实现长期存档和工作负载的可迁移性。
元数据必须扩展
另一个要求是,元数据必须扩展以跟上非结构化数据集的增长。管理元数据尤其重要,因为许多非结构化数据工作负载现在正在处理数百万甚至数十亿个文件。当然,每个文件都生成元数据。大多数文件系统供应商报告说,所有输入输出(IO)中多达80%是元数据。在许多情况下,由于元数据瓶颈、原有的网络附加存储(NAS)和文件系统达到了扩展限制。即使从技术上讲,当前的系统可以提供更多的容量,但客户仍然不得不购买另一个存储系统。
文件系统还应该利用闪存来应对PB级非结构化数据集造成的元数据挑战。写入或修改数据时,文件系统应提取有关文件的元数据,并将其存储在闪存的单独区域中。将元数据存储在闪存中不仅可以快速访问元数据请求(同样,所有IO中的80%是元数据),还可以隔离这个IO,从而使实际数据的路径不再那么繁忙。
容量须扩展
为了应对PB级元数据挑战,使网络附加存储(NAS)或文件系统能够提供比上一代存储解决方案更大的容量,这意味着文件系统需要扩展。它通过集群称为节点的商品服务器来完成扩展。每个节点都具有闪存和硬盘的内部存储容量,并将该存储分配到全局存储池中。当组织需要更多容量时,IT部门会添加另一个节点,以向全局池存储提供其容量。
洞察力就是力量
另一个必备条件是数据洞察力。给定文件数量及其消耗的容量,IT团队需要尽可能多地了解数据集。问题在于大多数文件系统在添加事实之后会添加自己的见解,因此它们须逐个文件人工扫描其文件系统以访问这些见解。这些扫描要花费大量时间,尤其是在文件系统中,文件系统的数量高达数百万个(有时甚至数十亿个)。
IT部门需要实时可行的数据来监视系统性能和容量利用率。这些团队需要立即识别出一个失控的过程是否正在消耗所有文件系统的可用IO。实时分析要求从一开始就将这种功能构建到文件系统中,而不是在以后添加它。如果文件系统将元数据从实际数据中分离出来,并将其存储在闪存介质中,则文件系统的分析功能可以立即获取该数据,并为组织提供实时答案。
PB级的非结构化数据环境与以TB为单位的环境有所不同。与传统的非结构化数据工作负载相比,其用例倾向于创建和需要访问更多的文件。存储容量经常超过1PB,许多组织的存储容量都在几十PB的范围内。考虑到人工智能和机器学习的兴起,以及数字媒体的新需求,对文件系统的需求将会增加。
现代的非结构化数据存储解决方案需要全面应对这些挑战。由于多种原因,很多组织需要采用闪存,而又不能放弃机械硬盘节省成本的潜力。同时,这些系统需要提供对数据的洞察力,以便IT部门可以有效地对其进行管理。