灾难是不可预测的,但是 Microsoft 数据中心和操作人员会为灾难做好准备,以便在发生意外事件时提供连续的操作。 弹性体系结构和经过测试的最新连续性计划可以减轻潜在的损害并促进数据中心运营的快速恢复。 危机管理计划明确了危机之前、期间和之后的角色、责任和缓解活动。 这些计划中定义的角色和联系人有助于在危机情况下有效提升指挥链。
根据 Microsoft 云运营和创新 (CO+I) 业务连续性计划,数据中心需要测试持续运营和对危机事件的响应。 每个 Microsoft 托管数据中心都有自己的业务连续性计划,该计划使用 CO+I 复原卓越中心和数据中心运营的关键主题专业知识来创建,以确保将特定于站点的上下文纳入应急准备。 这些计划描述了不同灾难场景的角色、职责、人员安全程序、通知条件、升级步骤和清单。
Microsoft CO+I 组织的复原能力功能受企业业务连续性管理计划管理,并遵循企业策略和标准。 业务连续性委员会、部门领导层以及 Microsoft 的高级领导团队定期审查该计划的绩效。
危机管理和大流行病响应
鉴于 Microsoft 在全球的影响力,危机管理计划是其应对重大事件不可或缺的一部分。 Microsoft 的数据中心危机管理计划以行业最佳做法为基础,包括允许采用战术方法应对重大事件所需的关键组件。 此外,CO+I 复原能力卓越中心制定并继续维护一项大流行和传染病计划,该计划用于应对可能对运营有影响的传染病。 作为疫情应对的一部分,复原支持团队向雷德蒙德的 Microsoft 领导层提供关键且及时的本地疾病情报,以促进全面的缓解策略。
Microsoft 建立了组织范围内的企业复原能力和危机管理 (ERCM) 框架,作为在整个公司范围内开发业务连续性计划的指南。 该计划包括业务连续性策略、实施指南、业务影响分析 (BIA) 、风险评估、依赖项分析以及监视和改进计划的过程。 企业复原 Office 管理整个 Microsoft 的治理和性能报告。 CO+I 复原计划通过 CO+I 复原卓越中心进行协调,以确保该计划遵循一致的长期愿景和使命,并与企业计划标准、方法、策略和指标保持一致。 CO+I 复原卓越中心制定了一系列标准,旨在为 CO+I 组织提供额外的治理。
CO+I 技术复原计划 (TRPs) 适用于 CO+I 内的各个工程组,用于从高严重性事件或灾难中恢复,以帮助确保关键技术仍然可用。
业务复原计划 (BRP) 和 TRP 包括服务的范围和适用的依赖项、还原过程以及与事件管理团队的通信。 BRP 和 TRP 至少每年由专用计划所有者审查和批准,并提供给所有适用用户。 计划根据定义的测试计划作为适用标准的一部分进行测试。
Microsoft 已将 BRP 定义为在发生严重不良事件时响应、恢复和恢复操作的指南。 BRP 涵盖继续关键业务流程和操作所需的关键人员、资源、服务和操作。 BRP 的开发基于 Microsoft 企业复原 Office 的建议准则。
此计划的范围是 Microsoft 的关键业务流程,在 24 小时或更短时间内定义为需要。 这些过程是在 BIA 期间确定的,其中 Microsoft 在 BIA 中估计了无法执行某个流程的潜在运营和财务影响,并确定恢复时间目标 (RTO) 和恢复点目标 (RPO) 。 遵循 BIA 后,将执行非技术依赖关系分析,以确定执行该过程所需的特定人员、应用程序、重要记录和用户要求。
Microsoft 定期测试 BRP,以评估其有效性、可用性,并确定可以消除或缓解风险的领域。 如果适用,如果存在与之关联的依赖项,则第三方将参与测试。 测试结果由相应人员记录、验证和批准。 此信息用于创建工作项并设置工作项的优先级。
数据中心复原计划
作为数据中心复原计划的一部分,CO+I 复原卓越中心团队开发满足组织业务连续性所需的信息安全要求的方法、策略和指标。 如果发生中断,团队会为关键流程和所需资源的持续操作开发 TRP。