在IT运维领域,有两个被无数次提起的词,一个是“救火队员”,一个是与之对应的“主动运维”。两个词汇前后呼应,旨在说明IT部门为了摆脱前者匆忙、低效的形象,用尽洪荒之力,以求避免IT系统故障,增加业务系统的健康运行时间。
但是,作为国内领先的IT运维管理解决方案提供商,北塔软件在为很多客户提供运维服务时却发现,在“主动运维”的光环背后,很多人还只能将其当成一种愿望,真正实现起来却是困难重重。这是因为,在主动运维落地时存在的两大难题:经验、能力。
误把“阈yù”当“阀fá”,棘手问题紧跟其后
在IT管理中,有两个词经常被混淆在一起用,你甚至可以在一些IT大咖演讲时也能听到。这就是阈值和阀值。其实,“阀值”这个词最早是没有的,后来国家的咬文嚼字工作组通过统计全国人民使用词语的习惯(也就是别字用多了,大家都成了习惯),发现了阀值这个词。但规范来讲,“阈值”才是主动运维中的正宗血脉。那么,我们为何要紧紧抓住它呢?
在被动运维中,业务部门一般最先发现故障现象,然后层层汇报领导后,指令IT运维部门尽快查明原因,并制定故障解决方案,直至解决故障,系统恢复正常为止。而主动式IT运维服务则可以很好的采取预防的手段进行监控管理,由IT部门首先发现可能出现的故障,改变“被火烤”的局面。为此,IT部门需要针对每个系统建立阈值报警体系,通过“基准线”观察每个系统可用性、流畅度、安全性的指标,凡低于或超过阈值,说明系统无法达到最低要求,则对该系统进行报警提示。
阈值的定义很容易理解,但在运维工具中如何设定就是一道难题了,这需要“经验”。首先,除了“0%”或是“100%”,这之间的任何一个数值都会处于设定预警阈值的范畴,管理员很难选取最合理的基线范围。其次,如果说“60%~80%”属于最常见的平均预警数,但业务系统都会出现集中访问的高峰期或是空闲期,阈值空间就会极大,造成频繁误报的现象。对于许多新上线的系统,“管理员的经验”几乎无法发挥作用。
对此,北塔软件表示:阈值的设定要依据历史数据,但一些维护人员往往是依靠自己的运维经验和行业惯例来设定故障告警阀值,无法按照系统的运行变化特性及时地进行智能调整,也没有持续改进和优化的有效方法来改变现状。鉴于以上难题,北塔BTSO2.5在保留实时阈值告警的基础上,更着重于对历史数据进行深入挖掘,系统从用户业务环境中自主学习和生成风险阈值,这项特性可以帮助管理员解决阈值固化的问题,进而实现自动化的主动运维方式。
没有“技术大咖”就无法实现主动运维吗?
建立和实施信息系统的主动式运维管理平台,注定是一个循序渐进的过程,需要对运维规则进行反复的调整,这不可能一蹴而就。但是,每个企业的IT部门都有着自己的特色,有的技术人员能力很强、待遇很高,有的却无法留住这些高资人才,导致运维规则无法落地。
因此,如果说“自主学习”是主动运维的第一步,接下来就需要实现“智能运维”,这也是从“人治”到“法治”的门槛。
传统的主动运维思路以事件为核心,侧重对故障的定位,但不负责解决,这就无法摆脱“人治”的束缚。而BTSO提出的主动运维不仅以数据为核心,根据用户所属行业自动定义正常阈值,还能将运维规则自动导入,指引用户按照规则处理IT预警信息,直接让用户步入中等运维水平。
以高负载主机为例,当管理对象加入系统后,BTSO自动启动各类主机性能监控,当个别主机出现高负载的表象后,系统不仅可以过滤偶发的CPU冲高现象,还能横向扩展分析,结合历史数据自动判断,告之用户这个偶发现象是否有关联、是否影响了业务系统的整体健康。如果被确定为长期高负载主机,系统将提出优化处理步骤。
不仅是CPU,管理员最担心的内存泄露,BTSO也能从增长趋势的角度,智能分析出这些表像背后的根源,利用72小时或更长时期的分析报告,或是系统将根据用户需求自动做出24小时的“进程级”内存泄露定位,展现有可能溢出的进程名称和消耗,更主动的消除故障隐患。另外,网络拥堵、数据库指标异常波动等,这些很难在短时间处理、必须依靠技术高手处理的问题,BTSO都提供了智能处理的内置规则,在用户无需掌握深奥理论的情况下,首先解决实际问题。并且,这些正确处理的步骤会被一一记录,在企业内部形成运维知识体系的传承。
“开刀治病”不如“强身健体”
在IT运维领域中,“主动”并不是一个新鲜的概念,几乎所有的IT运维产品都在宣传它。然而,由于今天的IT组织面临着诸如日益增长的基础设施复杂性、技能方面的限制以及“人才短板”等相当多的问题,因此要实现这一点并不容易。
但是,“主动运维”刻不容缓。这就如人生病一样,很多疾病都会造成身体上多处特征的不良反应,但生活中多数人都不在意身体不适症状,因此导致很多疾病错过了最佳的治疗时机。当然,主动运维理念的发展方向也将迎来改变,智慧运维不仅需要“开刀治病”,更应解决运维经验、个人能力等问题,指引业务系统“强身健体”。