随着法学硕士课程的推进,重新构想事件响应的新时代

随着亚太地区的企业继续加速数字化,它们面临着巨大的压力,需要在日益复杂的 IT 环境中保持一切顺利运行。该地区的风险可以说比世界上任何其他地方都要高。New Relic 的 2023 年可观测性预测发现,亚太地区的年平均停机成本最高——是欧洲的两倍多,是北美的近 16 倍。

他们的 IT 团队不仅肩负着尽快发现和修复事件的责任,他们还需要防止这些代价高昂的事件再次发生。自然,该地区的许多 IT 领导者都在关注人工智能的兴起和大型语言模型 (LLM) 的发展,以及它们改变我们所知的事件响应的潜力。

预防是人工智能事件响应的北极星,但经验也很重要

许多团队已经开始看到 AIOps 技术如何帮助实现最小化问题或对客户体验的影响,例如主动异常检测、事件关联以减少警报噪音以及自动可能的根本原因分析。

人工智能在减少 IT 事故方面前景广阔,甚至有人认为它最终将实现完全防止中断和停机的目标。然而,跳过这一过程中的任何基本步骤或限制 IT 团队处理事故响应的经验可能会对 LLM 的发展产生不利影响。

对于许多 IT 团队来说,在潜在问题演变成事故之前发现这些问题仍然需要花费太多时间。团队通常被动工作,只是在事故发生后才采取措施,而没有时间实施流程,以便在问题造成中断之前发现它们。

为了在 LLM 的支持下掌握预防,团队需要体验发现和修复事件。这一步 不能 可以跳过这些步骤,因为团队通过查找和修复事件的经验,学习实施缓解策略和采取预防措施的技能。这种经验将丰富人力团队和 LLM 理解和合理化大量数据集的能力,并完成事件响应生命周期内的各种任务。

LLM 将以三种方式改变事件响应

事件响应生命周期可能因组织而异,甚至因团队而异。以下是事件响应生命周期中关键任务的一些可能性:

  • 研究: 当事件发生时,工程师采取的第一步是收集信息并研究问题空间。LLM 在此过程中发挥着重要作用。通过访问当前和历史数据,LLM 将能够分析事件,搜索过去的事件以借鉴过去的经验,并根据这些数据进行推理以推荐潜在的前进路径。通过承担研究人员的角色,SRE 团队将节省大量手动时间。
  • 故障排除和诊断: 随着 LLM 的发展,团队将能够利用更广泛的知识库,利用相同的研究功能来帮助调查事件,包括确定适用于事件的运行手册。随着知识库从组织扩展到外部知识,AI 代理将能够通过迭代评估借鉴本地经验和世界知识的假设来执行自动根本原因分析。他们将能够模仿人类的认知,进行推理,并通过与人类团队的对话采取行动,以填补早期阶段的任何空白,然后通过提出建议来提供帮助。对工程的价值在于更短的平均了解事件影响和原因的时间,而对业务的价值在于更短的平均解决问题的时间。
  • 事件事后分析和记录: 事故发生后,工程师通常会收集、总结并制作事后分析报告。事故事后分析包括分析故障,以了解故障发生的原因、对运营的影响,以及最重要的,如何防止将来再次发生故障。这个过程可能需要数周时间。通过搜索、总结和推理能力,LLM 可以通过收集、整理、总结和分析数据来促进事后审查的初始阶段,然后提出与缓解策略相关的建议。这减轻了工程师的认知负担,为他们节省了大量时间。

随着 LLM 变得越来越复杂,组织及其 IT 团队肯定可以期待其在管理并最终预防事故方面带来的好处。需要注意的是,这个过程没有捷径可走,更重要的是,没有什么可以替代人类团队的亲身体验。

LLM 要求人类团队拥有丰富的事件响应经验,以便有效地根据逻辑推理执行任务。只有这样,工具才能对事件响应时间、解决时间和总体结果产生预期的积极影响。事件响应的下一章将由组织响应、管理和从事件中学习的更高效率推动,重点是智能、自动化和人机协作。

1719795659
2024-07-01 00:43:14
#随着法学硕士课程的推进重新构想事件响应的新时代

Leave a Reply

Your email address will not be published. Required fields are marked *

近期新闻​

编辑精选​