作者:来自 Elastic Elastic Platform Team
什么是运营弹性?
没有哪个组织能够免受干扰。无论是错误的更新、有针对性的网络攻击,还是导致大规模供应链动荡的全球流行病,大多数公司在某个时候都会遇到障碍。这是增长的代价。但成功的公司知道如何在完善的运营弹性框架的帮助下应对、恢复并从中断中吸取教训。
运营弹性是指在面临此类中断时做出响应、恢复和恢复运营的能力。
另一方面,缺乏准备和应对不充分可能会导致声誉、法律和财务后果。最坏的情况是,它可能导致企业永久倒闭。运营弹性可能是企业倒闭和实现指数级增长的决定性因素。这一切都取决于有效的自上而下的规划、对适应性治理和文化的承诺以及可操作的见解。
这就是可观察性发挥作用的地方。可观察性在单一窗口中提供了本地和外部依赖关系的整体视图。即使你没有处于危机模式,它对于预测故障和在数字世界中平稳运行至关重要。监控系统和查看垂直行业连接元素的能力可以决定是快速恢复还是损失数万美元的收入。
然而,运营弹性不仅仅是可观察性。结合网络安全实践,运营弹性规划和实施可确保你的系统正常运行,同时你保持主动的安全态势。弹性思维模式促使组织对威胁采取主动立场,以确保所有关键功能无论在何种情况下都能保持运行。运营弹性的核心是保护组织的整个生态系统,使其能够抵御冲击、维持其关键功能并蓬勃发展。
运营弹性的支柱
运营弹性是一个由多个部分组成的框架,需要组织领导者、其合作伙伴和受抚养人之间的协调努力。它始于了解任何运营环境中的依赖关系网络(从代码到供应链),最终在于不断审查和完善协议。
全面的运营弹性框架归结为五个关键支柱:
- 风险识别和评估
- 业务连续性规划
- 事件响应和恢复
- 危机管理
- 适应性治理和文化
1. 风险识别和评估
风险识别和评估涉及识别、评估和减轻可能影响组织运作能力的风险。通过利用人工智能和机器学习 (machine learning - ML) 技术,组织可以主动识别和分类潜在风险。预测(并解决)问题,是制定全面业务连续性计划的关键,而这反过来又直接影响组织的弹性。
运营弹性的这一支柱包括互连和相互依赖关系的映射。组织存在于互连网络和相互依赖网络中,从分布式架构到第三方依赖和全球经济潮流。虽然这可能是技术互联世界的产物,但映射这些互连和相互依赖关系对于识别潜在故障点和实现运营弹性至关重要。
大多数企业依赖第三方供应商和合作伙伴提供关键服务,因此第三方依赖关系管理对于风险识别和评估至关重要。第三方服务中发生的事件导致其中断,将不可避免地影响你的组织。运营弹性取决于建立清晰的流程,例如备份服务和遏制协议。
2. 业务连续性规划
业务连续性规划是组织及其人员在发生危机时必须采取的步骤,它侧重于内部流程,并列出识别和评估方法以及潜在中断的解决方案。随着技术格局的发展和不同风险的出现,连续性计划的持续测试至关重要。
例如,一家全球制造公司可能会定期进行灾难恢复演习,以模拟各种中断场景,例如供应链中断或 IT 故障。这些演习有助于公司完善其业务连续性计划,确保即使在危机期间也能保持生产和交付计划。
3. 事件响应和恢复
事件响应和恢复是识别、响应和从意外事件或事故中恢复的过程。事故的规模和范围各不相同 —— 从硬件和连接问题到网络错误和网络攻击。事故管理涵盖各种潜在的破坏性事件。成功的事故响应和恢复需要速度、灵活性和清晰的沟通渠道。如果做得好,事故管理可以让运营在响应期间继续进行,尽量减少或不造成中断 —— 关键是什么?规划。
事故响应和恢复计划详细说明了在任何给定事故的情况下谁做什么。它确定了利益相关者、预期的解决时间表以及升级和文档协议。当事故发生时,IT 团队将努力识别、记录和分类事故,然后控制问题并进行诊断,最后解决和审查事故。
可观察性和安全监控在此过程中发挥着重要作用,有助于确定任何危险信号的根本原因。可观察性工具提供对系统的完全可见性,可帮助团队修补和解决问题,而不会完全中断服务。
4. 危机管理
危机管理确保组织能够在计划外停机或网络攻击等破坏性事件期间继续运作并提供关键服务。这包括主动准备、识别潜在风险以及制定缓解计划。危机响应框架是关键,它概述了角色、职责和沟通渠道,以协调快速响应。业务连续性规划 (Business continuity planning - BCP) 发挥着至关重要的作用,确保在发生中断的情况下基本功能仍能继续运行。
不仅技术响应很重要,强大的沟通策略在危机管理中也是必不可少的。它可以在中断期间保持员工的一致并管理利益相关者的期望。一旦危机消退,重点就会转移到恢复,快速有效地恢复正常运营。这一阶段还提供了分析危机响应和调整策略以提高未来弹性的机会。有效的危机管理确保组织不仅能抵御中断,而且能变得更强大,更能适应未来的挑战。
5. 适应性治理和文化
组织通过投资领导力和资源来建立适应性治理和文化,以促进从事件中主动学习,帮助更好地为未来的中断做好准备。这包括培养一种鼓励透明度、持续改进和跨团队协作的文化。
通过将弹性嵌入决策过程及其整体文化,组织可以迅速适应不断变化的情况,利用过去事件的反馈,并实施随着新出现的风险而发展的灵活战略。适应性治理确保弹性不仅仅是一种被动措施,而是一种主动方法,使组织能够动态地应对挑战,同时保持运营稳定性。
相关文章:如何利用正确的数据存储实现运营弹性
运营弹性最佳实践
实现运营弹性并非易事。对于每个组织来说,情况都不同。除了差异之外,这些最佳实践适用于所有组织:
- 确定基本操作:确定哪些操作对组织的成功至关重要,并且在中断期间必须优先处理。这种关注可以让你有效地分配资源,以便最重要的功能保持运行。
- 确保领导层的承诺:运营弹性是领导力和文化的产物。领导层的支持对于培养弹性文化和确保实施有效战略所需的资源至关重要。
- 建立反馈循环:运营弹性需要组织内每个人都具有成长心态。通过创建反馈循环以从过去的中断中吸取教训,你可以不断改进弹性策略。
- 进行定期审核:进行定期审核以确保遵守法规和行业标准。这些审核有助于确定你的弹性策略中的差距,并确保你的组织为未来的挑战做好准备。
- 使用基于云的服务:利用基于云的服务进行数据存储和应用程序,因为它们在中断期间提供灵活性和可扩展性。
- 制定全面的业务连续性计划:创建全面的 BCP,概述中断期间维持运营的程序。确保定期测试和更新你的 BCP,以反映组织或外部环境的变化。
就这样,你离运营弹性又近了一步。
使用 Elastic 实现运营弹性
你的业务依靠数据运行。要将这些数据与可操作的洞察结合起来,首先要实施无缝协作的搜索、可观察性和安全解决方案。快速找到答案、使用所有数据(无论它们位于何处)并连接工作流程,可以减少盲点、提高事件解决效率,并最终实现运营弹性。
原文:Operational resilience framework for success | Elastic | Elastic Blog