又宕机了!?
粗略总结下最近的宕机事件:淘宝-挖掘机,光线被挖断;携程-程序员误删;知乎-又是机房故障;以上几家互联网公司的宕机事件直接影响了用户体验,谁都不想当下一个例子。同样的,银行系统宕机事件更是非同小可。
在调研银行系统安全性问题中,发现了一个典型案例:西部某地方银行去年发生过一起长达37小时的系统宕机事故。导致存取款、网银、ATM等银行核心业务全部中断;间接影响全市医疗机构和定点零售药店共700多家不能刷医保卡结算;影响还波及政府、教育等多个领域。事故后果很严重。
让我们来分析下该银行的宕机原因。
有据可查的是,银监会发文中特意向全国通报了该事故,原来该事故起因竟是由于备份系统。
发文中对事故原因的具体解释为:在季末结算业务高峰时,因备份系统异常导致备份存储磁盘读写处理严重延时,备份与主存储数据不一致。在采取中断数据备份录像后,造成生产数据库损坏并宕机。
文中的解释比较言简意赅,但根据有经验的技术专家分析,从该解释中可以推测几点:
首先,业务高峰并没有导致主存储磁盘读写问题,在线业务无问题。
其次,业务量大”导致备份存储磁盘读写处理延时”,这说明相比主存储,备份存储可能由于档次过低,或者磁盘配置不合理等原因导致性能较差。
关于这点,专家分析,一般建设备份系统的投入要远小于在线业务系统的建设。而体现在数据中心内,就是购买的备份磁盘阵列往往比核心存储档次要低。在磁盘的选择上备份系统也大多采用可靠性次于高速SAS磁盘的大容量SATA磁盘。存储档次低,磁盘配置差导致备份存储性能严重不足。
也就是说,该银行的备份系统建设模式,应该跟大多数数据中心备份系统有同样的问题,即:磁盘配置差,备份存储性能低。
也可以看出,大多数企业存在着这样的宕机隐患。那么信息安全如此重要的今天,如何解决这个问题?
既然问题发生在存储系统上,那么解决问题的办法也蕴藏在存储系统之中。
小知识点:企业级存储方案,一般分为备份、容灾、双活/多活、两地三中心等。根据企业的业务规模和核心数据的重要程度,一般金融、税务、电信等行业的大规模关键业务数据保护,多采用双活和两地三中心方案,在业务连续性方面提供最高等级的保障。
调研了解到,基于磁盘阵列的对称双活技术,是一种针对备份系统不足的最佳升级方式。
但是,原有的对称双活存储技术主要实现在存储的两个控制器之间。小编采访中了解到,宏杉科技在对称双活存储技术上实现了突破:将一台存储两个控制器之间的冗余,变为了两台存储之间的冗余,而且不需要在服务器端增加任何第三方软硬件,可以直接在两台存储之间进行数据同步。当其中一台存储发生故障,另外一台存储会立即接管业务。实现RPO、RTO均为0的高等级数据保护。
具体而言,双活让备份系统有了五大优势。
概括来说,就是技术简单、高效、安全、易扩展。目前这种对称双活技术从众多数据保护技术,已经成为升级备份系统的最佳选择了,宕机问题不怕不怕了。