为云计算服务团队提供机器学习功能的系统不仅是一个错误,而且也是危险的。
一家公司的云平台在一个周末发生故障,该公司云计算运营团队试图研究和探讨发生了什么问题。似乎有几个系统与一个先进的新的库存管理系统相关,这个系统启用了机器学习,但出现了问题。对其进行检测之后的结论如下:
•将原始数据从运营数据库移动到训练数据库的批处理以及自动恢复过程失败。而在周末工作的运维团队成员试图重新提交,但并不是一次性提交,而是进行了四次更新,导致训练数据库处于不稳定状态。
•这导致机器学习系统中的知识模型使用错误的数据进行训练,并要求删除知识库中的新信息,并重建模型。
•此外,一些外部数据馈送(例如定价和税务数据)同时更新到训练数据库。尽管这些工作正常,但考虑到运营数据不是很好,也需要退出知识库。
•该系统两天内无法使用,考虑到生产力下降、客户不满以及公关问题,使该公司损失了400万美元。
随着企业越来越多地使用“物美价廉”的基于云计算的机器学习系统,人们发现利用机器学习的系统操作起来很复杂。企业运营小组希望降低困难程度和复杂性,但发现面临训练不足、人手不足和资金不足的问题。
云计算运营团队可以通过相当容易的转换来处理基于云计算的数据库、存储、计算。考虑到基于云计算的系统与传统系统类似,大多数情况都是如此。
但是,运营团队在很大程度上还没有采用基于机器学习的系统。这些系统具有专门的用途,以及须以某种方式监视和管理的专用系统,如数据库和知识引擎。这是当前运营团队失败的地方。
这种情况很容易理解,但大多数企业都不会喜欢,因为它意味着花费更多资金用于机器学习的云计算运营,可能导致放弃。机器学习系统是一种技术链,如果小心使用,它们很有效。如果处理不当,可能无法检测到故障,将会很危险。如果系统使用由此产生的错误知识,那么可能会出现严重的问题,而在造成很大的损害之前,这些问题可能无法被发现。似乎其风险大于回报。