很多人希望了解AIOps能做些什么来帮助IT团队完成他们的任务。
在当前的现代化时代,数据中心技术由云计算、内部部署技术、以及IT管理方法的组合组成,IT运营团队正在努力适应这一新的现实,并应对由此带来的日益增加的复杂性。人们通过新闻报道可以获知,越来越多的宕机和停机事件导致银行和金融业务瘫痪;迫使机场停止运转;以及影响医疗记录的可获取性。
数据不断增长的影响迫切需要解决。毫无疑问,人们正在进入一个复杂性和变化率远远超过传统人力资源IT团队有效管理基础设施能力的阶段。
与传统设施整合
技术进步是一件了不起的事情,但新产品并不总是能够有效地集成到传统环境中,从而导致很大的漏洞。这导致组织变得不适应,以致于难以跟上变化的步伐,组织需要掌握这些部署如何影响应用程序工作负载的行为和性能。业务中断和停机对客户造成了影响,将给组织带来了很大的经济损失,更不用说受损的声誉,以及导致员工失业。为了走出这条混乱的道路,IT运营的智能化(AIOps,这是由调查机构Gartner公司创造的一个术语)已经成为一种解决方案。IT运营团队发现,随着技术堆栈的增加,他们需要一种新的方法来管理技术堆栈的多种元素和复杂性。
虽然人们普遍认为自动化是现代数据中心的关键优先事项(支持IT团队保障运营流程的一致运行,有助于降低成本和维护时间),但人们对AIOps很少有真正的了解。简单来说,AIOps能够以类似的方式使用异常检测和机器学习来增强人类的理解能力,减少定位和诊断性能问题所需的时间。
应用于基础设施性能管理(IPM)的AIOps 能够有效地保障性能,可以监督业务关键型面向客户的应用程序的运行状况和利用率,能够在数据中心基础设施中出现一些潜在阻塞或延迟问题之前提供警报。
AIOps带来的好处
AIOps有效地帮助监控和忽略所有不同组件的复杂性,以及混合数据中心的各种部署(无论是云计算、闪存、超融合等)。它可以有效地监控、关联和优先处理IT运营的基础设施流程,从而使其尽可能顺利地运行,无论生态系统面临何种压力和困难,无论是临时的还是季节性的。因此,AIOps用于整个基础设施的容量规划,以优化应用程序可用性和性能。AIOps提供启发式和算法,它可以检测和暴露异常以及基础设施中潜在的漏洞。AIOps事件关联和分析功能意味着它可以挖掘大量不太重要的警报,以突出对业务运行很重要的警报。
随着堆栈变得越来越复杂和关键,迫切需要AIOps的功能。在当今的混合、虚拟化和多供应商环境中,传统方法和专有的传统工具根本无法胜任工作。
AIOps需要更多的宣传
然而,为了真正有效,AIOps需要采用机器学习(ML)技术来实现其适当的成熟度。它的能力无法在短时间内实现。为了使机器学习对业务有效,需要摄取成千上万的场景以使这种学习有效地发生。这种能力可能需要数年才能实现。随着新公司的宣传推广,并声称拥有AIOps功能,组织需要清晰了解AIOps的真正含义(以及它不是什么),否则IT团队将发现自己无法实现其优势,无法让他们的混合数据中心成型。
主要AIOps功能
为了实现AIOps的真正承诺,其功能须超越单纯的数据聚合和算法应用,AIOps须代表IT运营的整体转型,其中包括管理模型、智能关联数据、分析和场景,以实现元素的自动化IT运营。那么带来的问题是,该组织如何实现这一目标?
以应用程序为中心的重要性
一个重要的出发点是保障AIOps部署采用“以应用程序为中心”的方法。 AIOps产品应包括自动发现整个基础设施并将其映射到应用程序拓扑的功能。这样可以深入了解每个应用程序服务正在使用哪些基础设施资源。它应该能够主动识别可能影响性能的资源争用问题。以应用为中心的方法提供的下一层聚合是能够理解基础设施的不同元素如何相互关联和相互连接的场景。重要的是,这须包括应用程序如何与基础设施堆栈交互以及应用程序对业务的价值。
获得高质量的数据
AIOps还须利用高质量的数据和分析来提供有价值的见解,以帮助决策和优化管理。真正的AIOps的力量在于超越单纯的聚合警报。这需要实时连续的反应能力,提供解决潜在问题的知识,从而避免问题。正是影响运营的数据和分析的可用性使IT能够应用人工智能,并获得所需的洞察力,这使IT运营团队能够有效地专注于整体性能优化。而这一重要步骤将是AIOps平台为下一个关键的价值层添加新的内容。
自适应IT操作的自动化
真正的AIOps的下一个关键属性是自动化,这对于运营团队能够适应变化,并体现主动防止宕机和停机的能力很重要。真正的AIOps通过根据需要应用修复和优化来实现这一目标,从而可以维护整个生态系统的健康状况,并在整个堆栈(无论是在内部部署还是在云中)中了解工作负载行为。
IT运营团队专注于简单地保持基础设施运行的日子已经一去不复返了。为了使IT能够在当今的动态环境中充分支持组织,它不仅必须保持业务的一致、平稳、可靠运行,还须部署AIOps功能:从应用程序和业务价值角度利用全栈监控,获取正确的数据以提供高质量的见解,并将智能自动化应用于IT运营以实时响应。