化解运维挑战国神集团借RIIL“让数据说话”

随着信息化应用的逐步深入,国内大中型企事业单位的IT运维管理服务能力遭遇前所未有的挑战,这包括:基础环境复杂、过程管理复杂、知识积累复杂等等。国神集团在构建现代IT服务管理体系的过程中,结合业务特点以及人员、流程、工具现状,充分利用锐捷网络RIIL IT综合业务管理平台,让数据自己“说话”,全面化解运维难题,实现“五个中心”建设目标,为两化融合提供了重要技术保障。

IT运维遭遇“三大难题”

神华国能集团有限公司前身为国网能源开发有限公司,成立于2008年4月,2012年4月从国家电网公司整体重组并入神华集团。神华神东电力有限责任公司成立于1996年11月,于2007年8月31日整体注入中国神华能源股份有限公司。2012年12月,神华集团对两公司进行管理整合,实行“一个平台、两个公司、一体化运营”管理模式,简称“国神集团”。截至2015年7月底,国神集团在全国16个省、市、自治区拥有全资和控股子(分)公司61家。

国神集团

随着国神集团业务结构复杂程度不断加深,业务运营及发展对信息化系统的依赖程度逐步加强,这对IT运维人员的管理能力和技术水平提出了更高要求。尤其是近两年来云计算、虚拟化技术的不断成熟、发展,在导入企业生产环境的同时,很大程度上降低了在IT硬件资源方面的资金投入,同时为业务系统的高可用性提供了基础保障,然而在获取这些成绩的同时,运维管理的复杂程度也在不断攀升。为了确保业务系统的持续性运行目标,国神集团亟需解决以下三个方面的难题:

第一、基础环境复杂

健康的IT基础架构环境是业务系统运行的关键。在面向机房动力环境、网络结构环境、服务器以业务程序时,涉及了多厂商、多设备型号以及多版本的情况,这无疑是当前IT运维管理过程中的所面临的最大挑战之一。

第二、过程管理复杂

在IT服务管理中的过程管理是高效运维的关键。其中,人员因素起到了非常关键性的作用,在“专家级”人才短缺的情况下,科学严谨的过程管理和顺手的工具,将会弥补运维短板。

第三、知识积累复杂

知识管理是IT服务管理能力提升的关键。在缺乏知识管理工具的情况下,运维管理过程中很难将个人经验等隐性知识转化为显性知识。如何进行知识管理工具的选型及导入,对于国神集团信息化部门未来发展至关重要。

两化融合“五中心”落地是关键

由于国神集团高度重视工业化与信息化(两化)融合工作,把信息化建设作为跨越式发展、再造管理决策和技术创新高效管控体系的重要手段,在两化融合方面为我国工业信息化作出了典范。面对未来创新发展的需要,神华国能集团总部在构建IT服务管理体系的过程中,结合业务特点以及人员、流程、工具现状,提出以流程为导向的“五个中心”运维体系建设目标。

国神集团运维服务围绕“五个中心”进行规划

图:国神集团运维服务围绕“五个中心”进行规划

综合展示中心:综合展示中心以统一化的视图架构,展示出国神集团IT基础架构构成,并结合人员信息、资源信息提供综合管控依据。

服务及支持中心:服务及支持中心为运维管理提供服务支持,以面向服务的流程管理工具支持国神集团故障管理、变更管理以及服务请求管理,确保IT服务质量持续提升。

信息综合管理中心:信息综合管理中心作为信息发布管理入口,使信息实现各级用户的共享,并结合国神集团资产管理、项目管理、文档管理,使综合业务管理更具抓手。

信息化诊断中心:信息化诊断中心作为增强诊断IT基础架构中风险及漏洞的重要支持中心,在IT基础架构出现异常或故障时,为故障的排查提供快速解决入口。在故障处理的过程中能够及时、准确的定位故障源。

运维监控中心:运维监控中心是面向运行组日常运行的控制中心,为监控组提供统一的监控视图,便于直观的获取IT基础架构中的告警或异常,并通过综合展示中心管理国神集团IT基础架构资源运行态势。

为了实现“五中心”建设目标,在筹备过程中,国神集团考察了国内多家IT服务厂商,经过测试和二次开发成本评估分析,最终选择采用锐捷网络的RIIL IT综合业务管理平台,通过定制化开发实现了建设规划。在部署过程中,锐捷提出采用网络与无线管理系统开放性的管理架构,面向用户层提供统一的管理视图,形成集成业务系统性能指标、故障健康、短信实时告警和数据分析的一体化平台。

“五化”开启主动运维转折点

如今,智能网络与无线管理平台已经成为国神集团信息化系统运维的重要支撑工具,在完成IT基础架构资源管理的同时,一改传统的、被动救火式的运维管理方式,更多地转变为主动性的运维管理模式,并极大程度地提升了IT运维管理效率及运维质量。

第一,自主化。平台面向使用者提供自助化的职责分工与功能匹配。功能特点包括:全网资源告警分布、关键设备性能视图,关键链路流量数据等,系统使用者能够更加快速的掌握IT基础环境的运行情况。在统一的平台中应用各类面向人员及设备的统计性数据,从宏观的角度掌握人员、设备、服务的状态。同时,在自助化的工作台中增加公告通知及待办处理任务使工作窗口更加集中。

第二,可视化。在生产运营的过程中可视化的网络拓扑结构管理,及时掌握全网资源的可用性状态以及性能状态。当二级单位广域网链路故障时,以告警的方式对外呈现,便于运维人员及时了解全网运行状态,实时分析网络资源及链路资源的变化趋势,结合国神集团的业务使用情况,为资源保障及扩容提供合理的数据支持。

广域网可用性监控一览图

图:广域网可用性监控一览图

第三,主动化。智能网络及无线管理平台,通过两个维度进行IT基础资源的管控,可用性管理及性能管理。二者均以不同的周期进行被管资源探测及性能数据收集,依据预先设定的阈值条件当达到阈值范围后将通过告警的方式进行通知。告警台收到信息后,运维工程师能够第一时间获取告警资源名称、告警资源IP地址,详细的告警内容等。通过不同的告警等级,初步判断出告警的影响范围,从而为提高故障解决效率提供工具层面的支持。

值得关注的是,国神集团实现了告警信息处理和知识库进行对接。针对告警处理过程生成相应的解决方案,进行评审后可以直接进入到知识库中进行管理。知识库将面向所有运维工程师开放使用,确保运维知识得以积累及传播。

第四,集中化。设备日志作为事前预警及事后分析的参照,同时在信息安全方面提供更具参考价值的信息。在日志数据采集完成之后,可以根据不同的维度进行日志分析,如:异常日志频发的IT资源、ERR级别及Critical级别变化趋势以及日志告警数量等。系统在收集日志后,根据不同的日志内容进行关键字匹配,将符合匹配内容的日志信息直接生成为告警信息。

第五,智能化。RIIL的智能分析特点大幅提升了国神集团业务系统连续性管理服务水平。建立以业务视图为导向的管理窗口,将业务系统抽象为业务卡片,通过健康度、繁忙度及可用性来综合性的评估业务系统的健康水平。

业务系统健康状况与性能监控视图

图:业务系统健康状况与性能监控视图

针对RIIL产品的功能,以定制化部署之后的应用效果,国神集团相关负责人表示:“观看RIIL业务卡片和各类运行数据曲线图,能够非常直观地让我们了解到IT资源的性能变化趋势。‘让数据自己说话’也是目前IT服务管理领域最可靠的决策方式,只有使更多真实的运行数据为运营提供参考,发现人员、流程及工具方面的漏洞及隐患,才能最终提高运维管理水平。”

上一篇:合肥高铁南站监控设备大功率以太网供电案例

下一篇:电力第一云!EasyStack助黑龙江电力建设全核心业务OpenStack云化平台