一、高可用概述
1、高可用方案特性:
-
可靠性
-
可恢复性
-
自动故障检测
-
连续服务
-
应用透明(VIP)
-
监控功能(发现故障)
-
自动检测和恢复
2、高可用停机的原因(可能因素):
3、如何实现高可用性:
二、高可用性需求分析与架构确定
1、确定高可用性需求的方法
要素如下:
- 业务影响分析
- 停机代价分析
- 恢复时间目标(RTO):从系统发生故障到恢复系统之间的时间段。
- 恢复点目标(RPO):在不会对组织带来任何损害的情况下所能允许丢失的最大数据量。用时间作为衡量标准。
- 管理能力目标
- 投资成本与回报
2、根据需求选择合适的架构
2.1、KES最大可用性架构MAA
MAA三种保护级别:
- 初级:可通过重启服务、从备份恢复解决存储故障等功能。
- 中级:支持节点故障时自动切换,最小化停机时间。
- 高级:通过跨可用区和地域实时复制解决灾难恢复的实时需求,增加逻辑复制特性在线处理更多的操作。适用于有高RTO和RPO的关键业务使用,对包括灾难在内各种故障引起的计划外停机、物理复制无法实现的在线维护操作有更多支持。
2.2、各架构的高可用性及数据保护能力
三、高可用架构与最大高可用性特性
1、高可用架构介绍
特点:
- 多实例冗余,支持实例级别容灾切换
- 节点独立存储多分数据冗余,支持数据级别容灾
- 平衡应用读写负载,可将交易类系统指向主库,只读类系统指向备库实现读写分离负载均衡
- 支持坏块检测与修复
特点:
- 全局资源统一管理
- 支持共享存储的高可用多活
- 支持应用分库将压力分散到不同的数据库实例
- 去中心化,提供集群系统的高吞吐,高压力,高负载的承载能力
特点:
- 支持同构数据零停机版本升级
- 支持异构数据库同步;支持异地容灾
- 国产化替代数据平滑过渡,异构数据同步,双轨运行,安全切换
2、最大高可用性的特性
- KDW(金仓数据守护集群软件):集成化的数据高可靠性解决方案,能够预防软硬件故障,自然灾害,任务操作等造成的数据丢失或数据库中断。
- K-RWC(读写分离集群):通过物理复制保障企业数据的高可用性、数据保护和灾难恢复并具备读请求的负载均衡能力。
- K-Clusterware(共享存储集群)
- K-flysync(简称KFS:异构数据同步软件):异构数据同步,支持异构平台和异构数据库间的实时数据同步。
- K-sync_rman(KES备份恢复管理工具)
- KES 数据损坏检测:数据损坏检查,通过校验技术对数据库的坏块做检测,包括在运行态实时检测和对备份数据的校验。sys_checksums和在线自动块修复
- KES数据导入导出,数据迁移工具:sys_dump和sys_restore。KDTS迁移工具使用。四、KES计划外停机高可用解决方案。
四、KES计划外停机高可用解决方案
1、计划外停机的类型和 KES 高可用性解决方案
2、MAA 计划外恢复能力
五、KES计划内停机高可用解决方案
1、用于计划内维护KES高可用性解决方案
2、迁移的高可用性解决方案
六、最大化可用性的必备工作
-
制定可用性和性能 SLA(服务级别协议)
-
根据 SLA 选择高可用架构
-
搭建测试验证环境
-
建立变更控制流程
-
制定应急规划和预案
-
执行灾难恢复演练
-
监控影响可用性的关键指标
-
参考最佳实践