科普文：容灾

容灾

容灾是什么意思？

容灾（Disaster Tolerance），就是在自然灾害、设备故障、人为操作破坏等的灾难发生时，在保证生产系统的数据尽量少丢失的情况下，保持生存系统的业务不间断地运行。

容灾：是指系统冗余部署，当一处由于意外停止工作，整个系统应用还可以正常工作。

容错：是指在运行中出现错误（如上下游故障或概率性失败）仍可正常提供服务。

可用性：描述的是系统可提供服务的时间长短。用公式来说就是A=MTBF/(MTBF+MTTR)，即正常工作时间/(正常工作时间+故障时间)。

稳定性：这个业界没有明确的定义，我的理解是：在受到各种干扰时仍然能够提供符合预期的服务的能力。

从要求的严格程度上：可用性<稳定性。

可用性更侧重于容灾，而稳定性同时包含容灾和容错。容错侧重软件故障，手段主要有：隔离、流控、熔断和降级。容灾侧重硬件故障。

和容灾易混淆的概念

容错（Fault Tolerance）

容错和容灾最大的区别是，容错可以通过硬件冗余、错误检查和热交换再加上特殊的软件来实现，而容灾必须通过系统冗余、灾难检测和系统迁移等技术来实现。

灾难恢复（Disaster Recovery）

灾难恢复和容灾的区别是，容灾强调的是在灾难发生时，保证系统业务持续不间断地运行的能力，而灾难恢复强调的灾难之后，系统的恢复能力。

容灾必须满足的三个要素

1、先是系统中的部件、数据都具有冗余性，即一个系统发生故障，另一个系统能够保持数据传送的顺畅；

2、具有长距离性，充分长的距离才能够保证数据不会被一个灾害全部破坏；

3、容灾系统要追求全方位的数据复制。

容灾的指标参数

有两个关键指标我们必须要了解：RTO和RPO。

RTO（RecoveryTimeObjective，恢复时间目标）是可容许服务中断的时间长度。RTO数值越小，代表容灾系统的数据恢复能力越强。提升RTO的常用技术及其RTO的表现见下表：

RPO（RecoveryPointObjective，恢复点目标）是指能容忍的最大数据丢失量，是指当业务恢复后，恢复得来的数据所对应时间点。提升RPO的常用技术及其RPO的表现见下表：

容灾备份的区别

容灾（Disaster Tolerance）：就是在上述的灾难发生时，在保证生产系统的数据尽量少丢失的情况下，保持生存系统的业务不间断地运行。

容错（Fault Tolerance）：指在计算机系统的软件、硬件发生故障时，保证计算机系统中仍能工作的能力。

区别：容错可以通过硬件冗余、错误检查和热交换再加上特殊的软件来实现，而容灾必须通过系统冗余、灾难检测和系统迁移等技术来实现。当设备故障不能通过容错机制解决而导致系统宕机时，这种故障的解决就属于容灾的范畴。

什么是灾难恢复（Disaster Recovery）：指的是在灾难发生后，将系统恢复到正常运作的能力。

区别：容灾强调的是在灾难发生时，保证系统业务持续不间断地运行的能力，而灾难恢复强调的灾难之后，系统的恢复能力。现在的容灾系统都包含着灾难恢复的功能，所以本文的讨论除了包括容灾方面的内容，还包括了灾难恢复的部分内容。

容灾系统在企业中给与数据安全系数相当高的保障，但是容灾系统到底是什么，他们是什么意思？恐怕连正在使用容灾备份的网络管理人员都不能解释。本文用最浅显的语言给大家解释容灾备份到底是什么。

容灾和备份的目的不同

容灾系统的目的在于保证系统数据和服务的“在线性”，即当系统发生故障时，仍然能够正常地向网络系统提供数据和服务，以使系统不致停顿。

而容灾备份技术的目的与此并不相同，备份是“将在线数据转移成离线数据的过程”，其目的在于应付系统数据中的逻辑错误和历史数据保存。

所以，在各种容错技术非常丰富的今天，备份系统仍然是不可替代的。

备份是基石

备份是指为防止系统出现操作失误或系统故障导致数据丢失，而将全系统或部分数据集合从应用主机的硬盘或阵列复制到其它的存储介质的过程。

备份是数据高可用的最后一道防线，其目的是为了系统数据崩溃时能够恢复数据。

容灾不可少

那么建设了备份系统，是否就不需要容灾备份系统？这还要看业务部门对RTO（恢复所需的时间指标）/RPO（能够恢复到的最新状态）指标的期望值，如果允许1TB的数据库RTO＝8小时，RPO＝1天，那备份系统就能满足要求。同时，备份的目的在于应付系统数据中的逻辑错误和历史数据保存。只能够满足数据丢失、数据破坏时的数据恢复目的，而不能提供实时的业务接管功能。

因此容灾系统对于某些关键业务而言也是必不可少的。人们谈及容灾备份往往是针对当生产系统，不能正常工作时，其业务可由容灾系统接替这些业务，继续进行正常的工作。

能够提供很好的RTO和RPO指标。同时远程容灾系统具备应付各种灾难，特别是区域性与毁灭性灾难的能力，具备较为完善的数据保护与灾难恢复功能，保证灾难降临时数据的完整性及业务的连续性，并在最短时间内恢复业务系统的正常运行，将损失降到最小。

容灾不能替换备份

容灾系统会完整地把生产系统的任何变化复制到容灾端去，包括不想让它复制的工作，比如不小心把计费系统内的用户信息表删除了，同时容灾端的用户信息表也会被完整地删除。如果是同步容灾，那容灾端同时就删除了；如果是异步容灾，那容灾端在数据异步复制的间隔内就会被删除。这时就需要从备份系统中取出最新备份，来恢复被错误删除的信息。因此容灾系统的建设不能替代备份系统的建设。

容灾分类

容灾从大方面上分为IT容灾和业务容灾。IT容灾是更容易被忽视的地方。它包括人员和生产资料的容灾。

IT容灾

人员容灾遵循巴士因子：是一个衡量团队韧性的指标，‌它表示一个关键成员离开团队后，‌团队应对项目风险的能力。‌更直白点来说就是核心成员被车撞了，不能工作，生产是不是可以照常运行。

生产资料容灾就是来了巴士，没撞到人，用于工作的电脑被压碎了。这时候人还能不能及时响应。对应这个问题常用的方式是云桌面。云桌面又称桌面虚拟化、云电脑，是替代传统电脑的一种新模式；采用云桌面后，用户无需再购买电脑主机，主机所包含的CPU、内存、硬盘等组件全部在后端的服务器中虚拟出来。使用方法是安装云桌面客户端，登录账号就可以使用自己的开发环境，脱离具体机器的束缚。

业务容灾

业务容灾从容灾对象上可分成数据容灾、设备容灾和应用容灾。

数据容灾

数据备份和恢复是最基本的容灾方式，‌通过备份关键数据到备用存储设备或云存储中，‌确保在灾难发生时能够快速恢复数据。‌‌

多地备份和异地备份是将数据备份到多个地点或远程数据中心，‌以确保数据的安全性和可靠性。

设备容灾

冗余系统和设备是通过准备备用服务器、‌存储设备、‌网络设备等，‌并在灾难发生时切换到备用设备，‌以继续业务运营。

手段上要满足离散性(所部署应用的虚机不能在同1台物理机、同机柜、同1个leaf交换机上，尽量打散), 有的公司采用N+1容灾，可承受1个机房故障；超级大厂是所有应用至少三机房部署，单机房不能少于3个节点，核心应用三地六中心部署,多点多活，骨干网连接，可承受2机房故障。线路上要接入三大运行商；电力配置上：支持市电和备用发动机两种供电方式。