什么是灾难恢复(DR)? TechTarget 的定义

什么是灾难恢复(DR)?

灾难恢复 (DR) 是组织响应对业务运营产生负面影响的事件并从中恢复的能力。

灾难恢复的目标是减少停机时间、数据丢失和运营中断,同时通过在中断后几分钟内恢复关键应用程序和基础设施来保持业务连续性。 为了为此做好准备,组织通常会对其系统和 IT 基础设施进行深入分析,并创建一份正式文档以供危机时期遵循。 该文件称为灾难恢复计划。

什么是灾难?

DR 的实践围绕严重事件展开。 这些事件通常被认为是自然灾害,但它们也可能是由系统或技术故障、人为错误或故意攻击引起的。 这些事件的严重程度足以在一段时间内中断或完全停止关键系统和业务运营。 灾害类型包括以下几种:

  • 网络攻击,例如恶意软件、分布式拒绝服务和勒索软件。
  • 破坏。
  • 停电。
  • 硬件故障。
  • 设备故障。
  • 流行病或大流行病,例如 COVID-19。
  • 恐怖袭击或生化威胁。
  • 工业事故。
  • 飓风。
  • 龙卷风。
  • 地震。
  • 洪水。
  • 火灾。
有许多自然和人为灾难可能会对组织产生不利影响。

为什么灾难恢复很重要?

根据具体情况,灾害可能会造成不同严重程度的损害。 短暂的网络中断可能会导致客户沮丧以及电子商务系统的一些业务损失。 飓风或龙卷风可能会摧毁整个制造设施、数据中心或办公室。

此外,向公共、私有、混合和多云系统的转变以及远程劳动力的兴起使得 IT 基础设施变得更加复杂且存在潜在风险。 有效的灾难恢复计划可以让组织迅速响应破坏性事件,从而提供以下好处:

  • 业务连续性。 灾害可能会严重损害企业运营,产生成本并破坏生产力。 灾难恢复计划可实现备份系统和数据的自动化和快速重启,确保及时恢复计划的操作。
  • 减少数据丢失。 精心设计的灾难恢复计划旨在通过频繁备份、快速恢复、冗余检查等方法来减少数据丢失量。 数据丢失的可能性随着组织经历系统中断的时间的延长而增加,但有效的灾难恢复规划可以降低这种风险。
  • 降低成本。 灾难和停电造成的经济损失可能非常巨大。 根据 Uptime Institute 的“2023 年年度停机分析”结果 民意调查25% 的受访者表示,2022 年他们最近一次的停电造成了超过 100 万美元的直接和间接成本,表明支出呈持续上升趋势。 此外,45% 的受访者表示,最近一次中断造成的损失在 10 万到 100 万美元之间。 通过实施灾难恢复程序,公司可以在中断后迅速恢复正常,从而降低恢复和运营成本。
  • 帮助遵守法规。 许多企业需要制定并遵循灾难恢复、业务连续性和数据保护计划,以满足合规性法规的要求。 这对于金融、医疗保健、制造和政府​​部门运营的组织尤其重要。 未能制定灾难恢复程序可能会导致法律或监管处罚,因此了解如何遵守弹性标准非常重要。
  • 系统安全。 通过将数据保护、备份和恢复程序纳入灾难恢复计划,企业可以减少勒索软件、恶意软件和其他安全威胁的不利影响。 例如,云数据备份中的几个内置安全机制可以在可疑活动影响公司之前将其最小化。
  • 提高了客户保留率。 当灾难发生时,客户对组织的安全和服务的信心可能会受到质疑,并且很容易丧失。 可靠的灾难恢复计划,包括处理查询的员工培训,可以通过证明公司已为任何灾难做好准备来增强客户保证。
  • 应急准备。 在灾难发生之前思考并制定应对计划可以带来很多好处。 它提高了对潜在干扰的认识,并帮助组织优先考虑其关键任务职能。 它还提供了一个论坛,用于讨论这些主题并就如何在低压环境中做出最佳应对做出谨慎的决定。 虽然为每一次潜在灾难做好准备似乎有些极端,但 COVID-19 大流行表明,即使看似牵强的场景也可能发生。 例如,在疫情期间颁布居家令时,采取紧急措施支持远程工作的企业比没有做好准备的企业具有明显的优势。

由于云的广泛采用和虚拟化技术的高可用性使备份和复制变得更加容易,当今各种规模的企业都更容易实现灾难恢复计划。 然而,为灾难恢复开发的许多术语和最佳实践都是基于企业重新创建大规模物理数据中心的努力。 这涉及到将工作负载从主数据中心转移或故障转移到辅助位置或灾难恢复站点以恢复数据和操作的计划。

灾难恢复和业务连续性有什么区别?

在实践层面上,灾难恢复和业务连续性通常合并为一个企业计划,甚至缩写为 BCDR,但它们并不是同一件事。 虽然这两个学科在组织弹性方面有着相似的目标,但它们的范围却有很大不同。

灾难恢复和业务连续性的要点包括:

  • BC 是一项积极主动的纪律,旨在最大限度地降低风险并帮助确保企业无论在什么情况下都能继续提供其产品和服务。 它特别关注灾难发生时员工如何继续工作以及企业如何继续运营。
  • DR 是业务连续性的一个子集,重点关注支持业务功能的 IT 系统。 它解决了组织在事件发生后必须采取的恢复和恢复技术操作的具体步骤。
  • BC 还与业务弹性、危机管理和风险管理密切相关,但每个学科都有不同的目标和参数。
  • 灾难恢复措施通常包括为员工制定额外的安全预防措施,例如购买应急物资或举行消防演习。
  • 业务连续性计划有助于确保通信渠道(包括电话和网络服务器)在灾难期间保持运行。
  • 灾难恢复本质上也是一个反应过程。 虽然必须提前做好规划,但灾难恢复活动要等到灾难实际发生时才会开始。
  • 业务连续性确保组织在整个事件过程中的整体运作和弹性,而不是仅仅关注立即发生的后果。
  • 一旦系统故障转移到备份系统并最终恢复,灾难恢复过程就完成了。 通过业务连续性,计划在整个活动期间保持不变,甚至在灾难后系统恢复后也是如此。
  • 表格顶部

灾难恢复策略的要素

组织在制定灾难恢复策略时应考虑几个因素。 灾难恢复策略的常见要素包括以下内容:

风险分析

风险分析或风险评估是对企业可能面临的所有潜在风险及其结果的评估。 根据组织所处的行业及其地理位置,风险可能会有很大差异。 评估应识别潜在危险,确定这些危险会伤害谁或什么,并利用调查结果制定考虑这些风险的程序。

业务影响分析

业务影响分析 (BIA) 评估已识别风险对业务运营的影响。 BIA 可以帮助预测和量化财务和非财务成本。 它还检查不同灾难对组织的安全、财务、营销、商业声誉、法律合规性和质量保证的影响。

了解风险分析和 BIA 之间的差异并进行评估还可以帮助组织在数据保护和备份需求方面定义其目标。 组织通常使用称为恢复点目标 (RPO) 和恢复时间目标 (RTO) 的测量来量化这些指标。

  • 恢复点目标。 RPO 是组织在灾难发生后必须从备份存储恢复正常操作才能恢复的文件的最长期限。 RPO 确定备份的最低频率。 例如,如果组织的 RPO 为四个小时,则系统必须至少每四个小时备份一次。
  • RTO。 RTO 是指组织估计其系统可以停机而不会对业务造成重大或不可挽回的损害的时间量。 在某些情况下,应用程序可能会停机数天,而不会造成严重后果。 在其他情况下,几秒钟的时间可能会对业务造成重大损害。

RPO 和 RTO 都是灾难恢复中的重要元素,但这些指标有不同的用途。 RPO 在破坏性事件发生之前采取行动,以确保数据得到备份,而 RTO 在事件发生后发挥作用。

事件响应

这包括检测、遏制、分析和解决破坏性事件。 事件响应包括启动灾难恢复计划、评估事件范围和影响、执行恢复策略、恢复正常运行和停用计划。 为了保持责任并促进持续改进,记录和报告事件响应行动和结果也很重要。

灾难恢复策略的组成部分可能会根据组织的规模、行业和特定需求而有所不同。 因此,应定制这些计划以满足每个企业的独特要求。

灾难恢复计划中有哪些内容?

一旦组织彻底审查了其风险因素、恢复目标和技术环境,就可以编写灾难恢复计划。 灾难恢复计划是正式文件,它指定了这些要素并概述了组织在发生中断或灾难时将如何响应。 该计划详细说明了恢复目标,包括 RTO 和 RPO,以及组织为尽量减少灾难影响而采取的步骤。

灾难恢复计划应包括以下组成部分:

  • 灾难恢复政策声明、计划概述和计划的主要目标。
  • 关键人员和灾难恢复团队的联系信息。
  • 风险评估和 BIA,用于识别潜在威胁、漏洞和对业务的负面影响。
  • 更新的 IT 清单,包括硬件、软件资产和基本云计算服务的详细信息,指定其关键业务状态和所有权,例如拥有、租赁或作为服务使用。
  • 概述如何执行备份的计划,以及规定备份频率的 RPO 和定义灾难后可接受的最长停机时间的 RTO。
  • 事件发生后立即采取的灾难响应行动的逐步描述。
  • 整个网络和恢复站点的图表。
  • 有关如何到达恢复站点的说明。
  • 工作人员在恢复过程中将使用的软件和系统的列表。
  • 各种技术恢复的示例模板,包括来自供应商的技术文档。
  • 包括内部和外部联系人以及处理媒体的样板的通信。
  • 保险范围摘要。
  • 处理财务和法律问题的拟议行动。

组织应将其灾难恢复计划视为一份动态文件。 应安排定期灾难恢复测试,以确保计划准确并在需要恢复时发挥作用。 每当业务或 IT 系统发生可能影响灾难恢复的变化时,还应根据一致的标准评估该计划。

如何组建灾难恢复团队

灾难恢复团队负责创建、记录和执行组织在发生灾难或故障时的数据恢复和业务连续性的流程和程序。

建立灾难恢复团队的关键步骤和注意事项包括以下内容:

  1. 确定关键利益相关者。 确定组织内的哪些人应参与灾难恢复规划过程。 灾难恢复团队通常包括跨部门员工和高管,例如首席信息官、IT 人员、部门负责人、业务连续性专家、影响评估和恢复顾问以及危机管理协调员。
  2. 定义角色和职责。 一旦确定了灾难恢复团队的成员,下一步就是为他们分配具体的角色和职责,以确保恢复过程的有效管理。 常见角色包括团队领导、IT 专家、业务连续性专家、灾难恢复协调员和部门联络员。
  3. 评估专业知识。 如果组织缺乏内部专业知识,可以外包或聘请服务提供商。 这些提供商可以提供外部专业知识来帮助团队、提供灾难恢复即服务 (DRaaS),或提供咨询服务来增强内部团队的能力。
  4. 制定恢复计划。 团队应制定详细的灾难恢复计划,概述应对各种类型灾难的程序。 该计划应包括数据备份和恢复、系统恢复、通信协议和员工安全程序的步骤。
  5. 培训团队成员。 对团队成员进行灾难恢复策略中的职责教育和培训非常重要。 这可能需要进行频繁的演习和模拟,以评估计划的有效性并查明需要开发的领域。 例如,这可能包括测试所有应用程序并找到在发生灾难时访问关键应用程序的方法。
  6. 定期修改灾难恢复计划。 灾难恢复计划需要定期审查和更新,以反映组织变化及其对恢复过程的影响。
  7. 记录程序。 灾难恢复计划中的所有程序和协议均应以清晰且易于理解的格式记录。 这确保了团队成员在危机期间可以轻松参考并遵循必要的步骤。

灾难恢复站点

当其主数据中心不可用时,组织使用灾难恢复站点来恢复其数据、技术基础设施和操作。 灾难恢复站点可以是内部、外部或基于云的。

组织设置并维护内部灾难恢复站点。 具有大量信息需求和激进的 RTO 的组织更有可能使用内部灾难恢复站点,这通常是第二个数据中心。 企业在建设内部站点时,必须考虑硬件配置、配套设备、电力维护、站点的供暖和制冷、布局设计、位置和人员。

外部灾难恢复站点由第三方提供商拥有和运营。 外部部位可以是热的、温暖的或冷的。

  • 热门站点。 热站点是一个功能齐全的数据中心,具有硬件和软件、人员和客户数据,通常 24/7 都有人员配备,并在发生灾难时做好运行准备。
  • 温馨站点。 温站点是一个设备齐全、没有客户数据的数据中心。 组织可以在灾难发生后安装额外的设备并引入客户数据。
  • 冷场。 此类站点具有支持 IT 系统和数据的基础设施,但在组织激活灾难恢复计划并安装设备之前没有技术。 这些站点有时用于在长期灾难期间补充炎热和温暖的站点。

基于云的灾难恢复站点是另一种选择,它也是可扩展的。 组织在与云提供商签订托管其灾难恢复资产或外包附加服务的合同时,应考虑站点邻近性、内部和外部资源、运营风险、服务级别协议 (SLA) 和成本。

灾难恢复级别

除了选择最合适的灾难恢复站点之外,组织参考共享技术指导委员会和 IBM 在 20 世纪 80 年代确定的灾难恢复级别也会有所帮助。 这些层具有各种恢复选项,组织可以将其用作蓝图,帮助根据其业务需求确定最佳灾难恢复方法。

公认的灾难恢复级别包括以下内容:

  • 7 级。 第 7 级是灾难恢复能力的高级水平。 在这个层面上,人工智能和自动化可能在恢复过程中发挥关键作用。
  • 6 级。 第 6 层灾难恢复功能与第 5 层灾难恢复功能相当,但它们通常包括更复杂的技术和技巧,以实现快速恢复和最小化数据丢失。
  • 5 级。 第 5 层通常意味着超出热站点的高级灾难恢复功能。 这可以包括实时数据复制、自动故障转移以及增强的监控和管理工具等功能。
  • 4 级。 此层包括一个热站点,它是一个功能齐全且可供使用的灾难恢复站点。 热站点实时复制主数据中心的系统和操作,从而实现快速故障转移并最大限度地减少停机时间。 它们提供最大的可用性和恢复速度,但它们也是最昂贵的替代方案。
  • 第 3 级。 通过以电子方式存储关键任务数据,第 3 层选项改进了第 2 层的功能。数据的电子存储涉及以电子方式将数据传输到备份站点,这与物理运输备份磁带或磁盘的传统方法不同。 灾难发生后,数据丢失或重新创建的可能性较小,因为电子存储的数据通常比通过传统方式发送的数据更新。
  • 2级。 此层在第 1 层的基础上进行了改进,添加了热站点,这些热站点是已设置硬件和网络基础设施的灾难恢复位置,以加快恢复时间。 可能仍然需要额外的设置和配置。
  • 1 级。 此级别由提供基本基础设施但缺乏预装系统的冷站点组成。 此类企业有数据备份,但恢复需要人工干预和硬件配置,这会延长恢复时间。
  • 0 级。 此层表示最低的准备级别,通常与没有灾难恢复或异地数据备份的组织相关。 由于该层的恢复完全依赖于现场技术,因此恢复时间可能无法预测。
显示灾难恢复第 0 层到第 7 层的图像。
这显示了普遍接受的灾难恢复级别。

另一种类型的灾难恢复分层涉及为不同类型的数据和应用程序分配重要性级别,并根据数据丢失的容忍度对每个层进行不同的处理。 这种方法认识到某些关键任务功能可能无法容忍任何数据丢失或停机,而其他功能可能会离线更长时间或恢复较小的数据集。

灾难恢复的类型

除了选择灾难恢复站点并考虑灾难恢复级别之外,IT 和业务领导者还必须评估将灾难恢复计划付诸实施的最佳方式。 这将取决于 IT 环境以及企业选择支持其灾难恢复策略的技术。

灾难恢复的类型可能会有所不同,具体取决于需要保护的 IT 基础架构和资产,以及组织决定使用的备份和恢复方法。 根据组织的规模和范围,它可能有针对不同部门的单独的灾难恢复计划以及响应和弹性​​团队。

DR 的主要类型包括:

  • 数据中心灾难恢复。 拥有自己的数据中心的组织必须制定灾难恢复策略,考虑数据中心内的所有 IT 基础设施以及物理设施。 备份到辅助数据中心或托管设施的故障转移站点通常是计划的重要组成部分。 IT 和业务领导者还应记录各种与设施相关的组件并做出替代安排,包括电力系统、加热和冷却、消防安全和物理安全。
  • 网络灾难恢复。 网络连接对于灾难期间的内部和外部通信、数据共享和应用程序访问至关重要。 网络灾难恢复策略必须提供恢复网络服务的计划,特别是在访问备份站点和数据方面。
  • 虚拟化灾难恢复。 虚拟化通过让组织在备用位置或云中复制工作负载来提供灾难恢复。 虚拟灾难恢复的优势包括灵活性、易于部署、效率和速度。 由于虚拟化工作负载的 IT 占用空间较小,因此可以频繁进行复制,并且可以快速启动故障转移。
  • 云灾难恢复。 云服务的广泛接受使通常依赖备用或本地灾难恢复位置的组织可以在云中托管其灾难恢复。 云灾难恢复不仅仅是简单的备份到云端。 它要求 IT 团队在发生中断时将工作负载自动故障转移到公共云平台。
  • DRaaS。 DRaaS是云灾备的商用版本。 在 DRaaS 中,第三方提供组织物理机和虚拟机的复制和托管。 提供商负责在发生危机时根据 SLA 部署灾难恢复计划。 如果发生灾难,DRaaS 提供商会将组织的计算机处理转移到其云基础设施。 这使得即使组织的服务器处于离线状态,也可以从提供商的位置无缝地执行不间断的业务操作。
  • 时间点快照。 时间点快照或副本在特定时间生成数据库的精确副本。 如果这些备份存储在异地或存储在不受灾难影响的外部计算机上,则可以从这些备份中恢复数据。

灾难恢复服务和供应商

灾难恢复提供商可以采取多种形式,因为灾难恢复不仅仅是一个 IT 问题,而且业务连续性会影响整个组织。 灾难恢复供应商包括销售备份和恢复软件的供应商以及提供托管或托管服务的供应商。 由于灾难恢复也是组织风险管理的一个要素,因此一些供应商将其与安全规划的其他方面结合起来,例如事件响应和应急规划。

灾难恢复服务和供应商的选项示例如下:

  • 备份和数据保护平台。
  • DRaaS 提供商。
  • 来自数据中心和托管提供商的附加服务。
  • 基础设施即服务提供商。

为组织选择最佳选项最终取决于顶级业务连续性计划和数据保护目标,以及哪个选项最能满足这些需求和预算目标。

DR 软件和 DRaaS 提供商的示例包括:

  • Acronis 网络保护云。
  • 碳酸盐岩灾难恢复。
  • Dell EMC RecoverPoint。
  • Druva 数据弹性云。
  • IBM 存储保护增强版。
  • 微软 Azure 站点恢复。
  • Unitrends 备份和恢复。
  • Veeam 备份和复制。
  • VMware Live Cyber​​ Recovery(以前称为 VMware Cloud DR)。
  • 泽尔托.

紧急通信供应商也是灾难恢复过程的关键部分,因为他们通过向员工发送通知和通信来帮助他们在危机期间了解情况。 供应商及其系统的示例包括 AlertMedia、BlackBerry AtHoc、Cisco Emergency Responder、Everbridge Crisis Management 和 Rave Alert。

下载一个 用于灾难恢复产品和服务的免费 SLA 模板

虽然一些组织可能发现投资全面的灾难恢复规划具有挑战性,但在规划长期增长和可持续性时,没有人可以忽视这一概念。 此外,如果最坏的情况发生,优先考虑灾难恢复的组织将减少停机时间,并能够更快地恢复正常运营。

企业通常会为轻微的干扰做好准备,但很容易忽视更大、更复杂的灾难。 检查 IT 灾难的最常见场景 灾难恢复团队应该积极测试。

1714085499
#什么是灾难恢复DR #TechTarget #的定义
2024-04-25 14:00:00

Leave a Reply

Your email address will not be published. Required fields are marked *

近期新闻​

编辑精选​