英雄阿喀琉斯(希腊神话人物)出生时,他被母亲海洋女神倒提脚跟浸没在冥河水中,从此浑身刀枪不入。但最后他死在冷箭下,中招的部位就在脚跟。从此,"阿喀琉斯之踵"成为致命弱点的代名词。
这个词被很多行业引用,来说明问题的严重性,而当迁移到IT领域,它的名字叫"故障"。其原因在于,当企业离不开IT的时候,必需为生存寻找隐藏其后的致命弱点,因为各种故障随时都可能正在发生。
IT故障为何频频光顾?
这个问题有点匪夷所思,与十年前的生产工艺相比,如今的IT设备或是软件的成熟度、稳定性大大增强, 但为何IT故障还是频频光顾呢?
对此,作为国内领先的IT运维管理专家,北塔软件提供了比较客观的分析:
第一,确保不出现故障的硬件和程序,在这个世界上是不存在的。任何以稳定性著称的系统都必需符合"相对论",问题只在于这个错误你有没有碰上而已。
第二,IT系统的复杂性,与微信中疯传的"一张图看懂阿里巴巴"不同。许多企业中的业务子系统相关联系非常紧密,对于企业的运营来说,这些IT基础设备上跑的业务往往是一个闭环。断其一点,循环不畅。
第三,云数据中心是虚拟化技术演进的结果,冗余性设计让管理员不必再担心瞬间停机,但故障主机的修复更具挑战。这是因为,虚拟化解耦了物理设备之间一一对应的关系,虚拟主机可以位于云端任何计算节点或存储设备上,这使得发现并排除故障的时间成本更长。
第四,当业务系统大到一定的程度后,如果依靠人力管理,则极易发生失控的状况。一些骨灰级的IT运维高手可以手工巡检、排错,但如果支撑业务系统的对象数量、逻辑结构超越了"大脑记忆"容量,那些凭借经验修复网络的高手就很可能败下阵来。
破解IT运维的复杂性
"IT运维管理部门的真正价值并不是出现故障之后的处理,而是在故障发生前能够准确判断,排除隐患,并避免故障的发生。"北塔软件建议用户采用主动运维的方式来对待故障管理,同时还借助北塔BTIM IT综合管理软件,介绍了消除业务系统复杂性,简化运维管理的方法。
第一,能够帮助企业有效对抗故障难题的方法,就是建立主动性的发现机制和处理流程。而主动发现故障,取决于企业IT运维管理部门的思想转变,践行于IT基础设施的有效监控。稳妥的IT基础设施监控是后续环节的起点,同时也是将运维从复杂变化为简单的关键步骤。将分散或看起来不相关的组件(问题)联系起来,以形成一个完整的系统,此时监控系统中才能派生出预警信息,才能"有意义"。
以北塔软件的北塔BTIM为例,在操作界面中的对于图标使用 "红、棕、黄、绿、蓝"不同的颜色,这代表5个告警等级,此告警等级可以代表不同的运维等级,它们是:紧急、高级、中级、低级、提示级。根据优先级的不同,对应的处理人员不同,处理流程也不同,响应的时间也是不同的。
第二,主动运维的理念已经深入人心,但如果还使用基于ICMP(ping等命令)的管理,利用连通性来判断业务系统"缓慢"原因的人就是"超人"。此时,如果个人经验已经无从下手,用户就需要使用到北塔BTIM产品中的一些"特殊功能"。
例如:"故障根源分析策略"、TFS管理系统、业务流量视图,这都可以帮助管理员化解故障处理的复杂性。其原因在于,再复杂的系统,都有数据行走的路线。一旦发现问题,依据业务流量实际流量路径,按分析需要逐层扩大数据采集的深度和广度,层层深入,便能直达故障根源。
第三,针对数据中心场景的变化,IT运维也应随之"进化"。虚拟化创造出一种全新的数据中心模型,基于X86技术的开发让软件定义数据中心弹性无穷。但其背后却隐藏着许多隐患,很多传统的IT运维管理方案都只能工作在物理环境中,许多管理员又再次陷入了手动运维、被动管理的泥潭。
为此,北塔BITM在虚拟化环境中采用独有的"物理拓扑"运维,在可视化方面为ESX/ESXi主机、虚拟机、数据存储、虚拟网络构成了等同于物理设备一样的管理中心。
故障不会彻底消失,巡检是最佳助手
当前,IT已是现代企业最好的"破冰船",它可以为经营者随时创新的思想提供支撑,通过更好的核心竞争力推动业务发展、维持竞争优势、落地以客户为中心的经营方针。然而,IT既强大又有软肋。不断冒出来的需求让IT基础架构和业务系统的复杂性超过以往,而任何微小的故障会因为系统的紧耦合性造成连锁反应,这便是IT系统的"阿喀琉斯之踵"。
最后,寻找IT运维管理中的"阿喀琉斯之踵",不会让IT故障从此消失。不过,"让运维系统自动发现故障要比手动检测快得多,快速解决复杂应用问题需要大量的细节指标"这两点还请牢记。
自动巡检不但可以解放人力、发现系统的隐患,更能大量收集系统运行的监控数据,并以此为依据建立一种可持续性的优化目标。另外,可以高效存储并快速收集相关数据的IT运维解决方案也是你强大的队员,它可以协助你在几分钟内解决问题,而不是数小时或数天。