越来越多大型企业在互联网转型中引入公有云,随之而来的是“云”背后的运维管理挑战:传统条块分割的IT运维模式已经无法适应云环境下的运维管理需求,企业普遍缺乏熟悉公有云的专业运维人员,缺乏简单、便捷的PaaS管理工具而无法有效管理公有云基础资源,或者无法有效控制云成本而使运维成本增加等。种种“云”背后的运维问题可能会导致企业无法有效管理云环境,影响了企业互联网转型进程。
如果说,上“云”只是企业互联网转型的第一步,那么“云”的有效管理才是决定转型效果的关键因素之一。如何有效管理云环境,解决“云”背后的运维难题?“世界五百强”韩华集团的经验值得借鉴。
云环境下的运维挑战
成立于1952年的韩华集团,是一家拥有58家子公司及226个全球网络、位列世界五百强的跨国企业;业务主要涵盖制造业和建筑业、金融业、服务和休闲业,2016其年营收超过3600亿美元。
从2007年至今,韩华集团在全球范围内启动扩张战略,先后在美国、中国、越南等地投资建厂。2011年韩华集团在中国成立中国总部,并设立了10个分支机构和9个子公司,业务范围从新能源产业拓展到制造业和建筑业、金融业、服务和休闲等产业。
随着互联网大潮兴起,韩华集团也积极布局互联网创新业务,如早在2014年就收购了Samsung Techwin研发部门,推出一系列基于云服务的安全监控摄像头SmartCam产品(用户可通过网络摄像头和手机应用远程监控家庭安全);2015年韩华集团还与中国互联网金融公司点融网合作建立合资公司,涉足互联网金融业务等。
为了支撑互联网业务创新发展,韩华集团引入了AWS公有云,同时把AWS公有云的运维工作外包给第三方公司M。
但是,第三方公司M的传统IT运维管理模式无法有效应对云环境下的运维管理需求,比如,M公司没有建立系统化的故障处理流程,因此无法及时响应和处理云环境下的故障问题,导致故障处理时间很长,故障处理流程随意而混乱;由于M公司的服务范围有限,缺乏AWS PAAS监控工具,因此无法及时掌握AWS云上的资源变化及成本情况,无法准确了解运维情况;由于专业化、熟悉AWS云架构专业知识的运营人员不足,一旦故障同时发生或者互联网用户流量激增时,M公司无法妥善应对;由于对AWS理解不够深入,也导致运维架构部署缺乏效率。种种问题导致韩华集团每年会发生超过560项事故,严重影响了互联网业务创新。
“云”背后的推手
面对云环境下的运维管理挑战, 2016年韩华集团决定引入专业的云管理服务提供商(MSP),以推动互联网业务发展。经过多方考察,考虑到Bespin Global(贝斯平云科技)的国际化团队,拥有135个AWS / Azure 认证的云专家,为三星电子等企业部署云管理的成功案例,以及2016年Bespin Global还成为首家入选Gartner公有云管理服务单元魔力象限的东亚公司(全世界只有20多家企业入选)等因素,韩华集团选择引入Bespin Global专业的云运维管理服务。
Bespin Global为韩华集团组建了专业的运维小组,以自主研发的智能化云管理平台BSP(Bespin Service Platform)为基础,为韩华集团建立了定制化的BSP平台。BSP平台可以按服务/项目/用途等不同需求提供不同的监控仪表板。
在监控仪表板上,韩华集团不仅可以24*7*365实时查看AWS云上各种资源的使用情况,还可以获得AWS PaaS监控视图,能够迅速了解故障情况,提供安全与备份管理;通过引进任务单服务,一旦故障发生,可以自动向负责人发出报警,方便及时应对。
基于BSP平台,Bespin Global还为韩华集团建立一套以ITSM为基础的任务单系统,通过标准化的云运维服务目录和服务流程,保证了运维需求的快速响应。目前服务可用性从99.5%增长到99.99%;每年故障发生时间从之前的540分钟缩短到19分钟。
通过引进RI(保留实例),韩华集团的闲置AWS云资源可以得到及时清理,大幅节省AWS基础设施成本;而且,通过Bespin Global的专业化云咨询和工程师团队建立的开源系统,韩华集团节省了一半以上软件授权费。
韩华集团的云管理模式不仅提升了AWS云的运维效率,降低了运维成本,也提高了开发部门的开发效率,能够有效应对互联网业务创新的快速变化需求,以及互联网业务的大规模用户访问高峰。当推行新业务时,即使工作负荷增加,也不会出现系统停止运行等问题,可以保证互联网业务稳定进行运营。
2016年韩华集团SmartCam产品上市交易高峰,带来了用户访问流量的大爆发,致使后台AWS云资源的压力和运维人员的工作负荷增加,但承担了韩华集团AWS运维管理任务的Bespin Global成功应对这次运维挑战。