虽然由各类设备生成的海量日志数据能够提供巨大的潜在洞察力,但是我们需要通过机器学习才能让它们变得具有意义。
由机器生成的日志数据可以说是大数据[注]宇宙中的“暗物质”。在包括智能手机、物联网终端在内的分布式信息技术生态环境中,虽然它们可以产生于每一层、每一个节点和每一个组件。虽然这些数据被四处收集、处理、分析和使用,但是这一切中的大部分都是在后台进行的。
日志数据是故障排除、除错、监控、安全、反诈骗、合规、电子取证等许多企业应用的基础。同时,它们也是一个强大的分析工具,可以分析点击流、地理空间、社交媒体、以及以客户为中心的使用案例中的行为记录数据。
人类几乎无法跟上机器记录数据的生成速度。这些数据中的大多数也不是用于人类直接分析的。除非进行高效过滤,否则具有高容量、高速度、多类型特性的日志数据将会迅速超出人类的认知能力。埃森哲咨询公司的分析人员在其的一份报告中对此进行了简明扼要地解释:
“随着日志文件的容量和类型的增长,对日志数据进行分析、追踪潜在的问题、发现错误变得越来越难,尤其是在多日志相关性分析出现之后。即便在最佳状态下,也需要经验丰富的操作人员跟踪事件链、过滤噪音,并最终诊断出导致复杂问题产生的根本原因。”
很明显,自动化是在日志数据中找到洞察力的关键,尤其是在这些日志数据已经升级为大数据的情况下。自动化能够确保以数据流一样的速度迅速进行数据的收集、分析处理,以及对数据所展现出来的问题进行快速响应。高扩展性日志分析自动化的关键推动因素包括,机器数据整合中间件、业务规则管理系统、语义分析、流计算平台和机器学习算法。
其中,机器学习是自动化和提升日志数据洞察力的关键。不过,机器学习无法凭借一套解决方案应对所有的日志数据分析问题。不同的机器学习技术要应对不同类型的日志数据和分析挑战。如果能够提前确定机器学习要查找的关联性和其他模式,那么可以采用监督式学习的方式。不过,监督式学习需要人类专家准备供参考的“练习数据”集,以便于机器学习算法能够识别具有重大联系的模式。
当日志数据模式无法被提前精确定义时,非监督式和强化学习可能更为合适。这些由机器学习推动的大数据分析场景应该彻底实现自动化,因为它们无需人类提供练习数据集就能够挑选并按照优先次序排列出与任务关联性最大的模式。
多日志相关性是一个关于非监督式和强化学习的核心日志数据分析使用案例。随着多样化的日志数据集被综合在一起,它们变得越来越多样化,越来越复杂和越来越不可理解,最有意义的数据变更和关联在传统的分析中会变得十分不清楚。如果仅尝试使用简单的查询、既有报告和仪表盘等其他标准的分析角度,那么这些隐藏模式可能仍然无法实现可视化。在这些案例当中,机器学习可以通过聚类、马尔可夫模型、自组织映射等不同的量化研究方法,为进一步的探索找出最值得关注的模式。
非监督式与强化学习的另一个重要用途是,识别此前从未出现过,或是曾经出现过但未被分析师被识别出来,但却具有重大意义的模式。埃森哲报告的作者探讨了一个关于机器学习的安全日志分析应用。该应用能够迅速识别出用户违规访问模式。即便这个访问模式之前从未出现过,应用也能够迅速识别出来,消除了隐私信息泄漏的风险。
海量日志数据所带来的深刻洞察力具有以下特点:复杂性、深刻性和史无前例性。从日志数据中进行学习,而不是通过先验知识进行学习将会耗费数据科学家们大量的时间。数据科学家们会不断地调整他们的机器学习算法,以监视日志中的“信号”。此前,即使是最资深的人类主题专家也忽视了这一部分内容。