龚一斌 京东云安全运营总监
摘要:通过京东云安全战略、安全架构、监管合规、安全对抗能力及安全生态建设介绍,分享京东云安全体系建设实践与思考。
首先一提到京东,可能很多人都会讲到京东是一个电子商务公司,京东有自己的电子商务,有些人可能会讲京东还有物流,用金融体系,移动金融用的比较多的可能说京东有金融,京东云它诞生的时间并不长,到现在也就是两年多的时间,不到三年。
但是京东公司有一个战略是什么呢?虽然京东起源于商城,但是无论京东商城也好,还是物流,包括我的金融体系,包括我的金融保险,我的这些所有都是上层的业务。要把这些上层的业务做好,能够给我带来一个更大的竞争上的优势,云的技术是必须要解决的一个问题。所以说这也是为什么京东花了很多的力我们来建自己的京东云,我们的目标就是用技术将第一个12年建立的所有商业模式进行改造,打造一个包括智能零售、智能金融、智能保险、智能物流业务在内的全球领先的智能商业体。这是我们的一个夙愿。
那么要做云,我本人是做安全出身的,做了大概十几年的时间,做云其实说,我最早接触应该是2009年的时候,那时候可能很多客户还对云不太了解,但是我们从对国外的一些领先的厂家也好,包括一些领先理念来看的话,做云要解决的第一个问题就是安全问题。因为云相当于什么?相当于我们把自己的资产,把自己的身家性命交给别人去代管,这种情况下,如果说作为一个服务托管商,你自身不能解决安全问题的话,你是很难让你的客户相信你能够愿意把他的系统迁到云上。所以从我们第一天做云开始,我们就给自己定了一个目标,我们要打造可信任、合规、安全可靠的云。
那么啊具体怎么做呢?在云安全建设过程中,我们其实会分成几大块。
首先第一,刚刚邵总也讲了,做云首先分两个大目标,首先作为云平台来讲的话,我要对外提供云的服务,首先我要保证自身的安全,这是我们作为云的建设厂商所承担的一个义务。另外一部分,我既然要给我的客户提供上云的服务,几年前大多数厂商还是聚焦在IaaS上,计算、存储、网络,这是我们应用体系建立了三大要,我们叫三大要,但是你让他上云的时候,同时呢必须要解决他的安全和合规的问题,这时候在云自身建设的时候,要给租户提供他相应的安全相关的服务。这是从云的角度两大维度来说。
其实做云技术做了这么多年,一个最深的体会是什么?相信大家可能都有体会,技术只是安全的一部分,一个技术发展的再好,它如果用不好,其实你是无法根本解决安全问题的。我们做了这么多年,我发现很多客户可能买了一堆的安全设备,一个一个的串糖葫芦串在一起。
举个最简单的例子,我以前一个金融客户,买过我们的IPS设备,装到他的系统里,运行了两年,两年以后,突然有一天,我们那个一线的服务工程师来报账了,说这个客户找过来了,说咱这个IPS设备上网已经两年时间了,但是咱们一条日志都没有,说我们这个业务就这么安全,没有人来攻击?最后我们赶紧安排人去排查,排查完了以后,最后发现什么问题呢?大家都知道现在基本上外围业务都是https加密化的,那么这个客户在部署的时候,他自己没有这个意识,他把这个IPS以串行的方式布在这个https上,所有流进IPS后的流量都是加密后的流量,大家知道传统的IPS是基于特征去检测的,这时候加密后的流量基本上是密文化,什么都看不到了,相当于失去作用了。但是这个设备在网上运行了两年时间,因为大家没有足够的安全意识,也没有经常性的去进行观察,所以说也不知道这两年到底有没有受到攻击?
所以说我们在做云的时候,我们会发现云的安全、运维安全是非常重要的一点,这个运维安全,尤其是对于我们云自身的保障,这是来保障我们云自身能够对外提供持续不断的服务的一个最基本的基础。
另外还有从业务角度的运营安全,大家知道京东是电商出身,电商必须面临的一个问题是什么?晒羊毛的问题,我们中国人其实很聪明,有大量的黑产是专门做这个的,通过各种晒羊毛的活动去谋取巨大的利益。其实我们在做云的时候,也是跟大量的黑产做斗争。
云这个东西应该是挺特殊的,但是举一个例子,就在前不久我们观测到一个行为,有人大量利用我们云主机申请,因为云主机有一个帐号,有一个生命周期管理,一般在欠费之前,我们首先要保障用户业务的可用,绝大部分云厂商它不会说欠费马上停机,它会给客户一个缓冲期。有些人就在这个上面做文章了,他开通了一个很小的数额,欠费以后,他不会马上停机,还可以继续使用,他大量账户去注册的时候,就可以产生大量云计算能力的资源,它用来干什么?用来挖矿。这种时候他不断的去排量的注册,排量的去使用,你查到以后他再去换帐号。对于这样,如果我们不能很好的进行监测,其实它就会消耗我们大量云的资源,进一步就会影响我其他云的一些正常业务的开展。所以说在云的运营安全上也是需要重点关注的一部分。
上面这些其实更多都是偏向于业务和技术,作为云来讲的话,我们还有一个最基本的要求是合规,所以我们所有技术的构建,我的运营和运营保障体系的建设和我的运维保障体系的建设,都是以合规安全为前提的。所以说,其实我们也做了大量合规的相关认证工作,包括可信云、等保啊、ISO,包括一些PDISS认证,这都是我们的一些实践。
今天这个论坛其实更大的主题是数据安全,前面大家也分享了很多数据安全相关的工作,作为我们云来说,云其实是一个特殊的存在,做云的人既是甲方也是乙方,大家应该能理解。首先作为云的建设方我是要承担甲方的责任,我要保证我这个云能够尽可能利用现有的安全基础把它建设的比较好,安全的运营。所有我的服务提供商我又是一个乙方,这个角度我们在做数据安全的时候,首先有一个核心的理念是什么?做云一个最基本的理念就是数据主权问题,刚才前面也介绍过了。我作为云服务商,那么上云的数据、用户的数据,我是坚决不能碰的,这是一个最基本的要求。
第二个安全保障,这个是什么?相当于你上云以后,我的数据没有保障,那在云上面要给你提供一系列的安全可靠的措施,能够确保租户数据的隔离,比如数据的隔离性,租户之间不能互相去访问。第二数据的隐私性,我可以给你提供加密的手段,你可以把上云的数据通过密钥的方式进行加密,这样的话,保证你的数据即使被别人拿走的情况下也看不到里面的内容。
第三是透明可信,这个不用多说了。
基于这个核心理念,我们怎么落地呢?其实我们要通过几个方面:
1、在人员的组织上;
2、制度的流程上;
3、在技术保障上。
这三个大点来去落地。
今天由于时间关系讲得特别细也不太现实,给大家分享一下我觉得还是比较有用的。
刚才也说了,技术只是一个基础,其实在整个安全的建设中,运维、人员和制度保障其实是非常重要的一点,我们通过我们的摸索,其实我们建立了一套人员组织和制度流程相关的规范。比如说在人员组织上,我们有一个最高的安全委员会,这是最高的决策层,是一级部门的主管来承担委员的。
在此之下,我们有一个安全工作组,大家知道很多企业在做安全的时候,一个最大的痛点是什么?最大的痛点是安全人员和应用开发人员,还有网络运营人员是完全隔离的不同组织,大家知道不同的组织每个人有不同的诉求,我做安全的人肯定希望尽量的去多设一些坎儿,能够让我的系统能够可控。做网络的人觉得我第一要素是要保证网络的可用性,因为网络不能故障,你只要是尽量能通的地方都能通上,不该通的地方断了就行了。做应用的人来讲,你网络也好,其他也好,别影响我应用的可能性,别影响我的性能。所以说他们这几个组织之间,天然会有一个冲突,我们怎么解决这个问题呢?
我们现在打破了这个安全的边界,虽然我们有一个专业的安全运营团队,我们更多给自己立足于服务的角色,我们服务应用开发部门,服务网络部门,我们更多是在每一个组织部门里面建立我的一个安全官制度,每个组织,换句话说,每一个开发组织,每一个希望运维组织都有安全的接口人,这个接口人相当于我安全团队的一个延伸。这样的话,因为他更清楚他业务自身的情况,同时他又能够接触到我们核心的安全理念和我安全的一些制度和测定,通过这些触手,真正把我们安全的一些理念也好,技术也好,和我的一些要求真正的落实到每一个小的组织和小的开发的周期里去。这是一个,我觉得还是一个我们在实践上很有用的一个地方。
通过这个组织,我们就真正的打破了我们各个不同组织之间的边界,真正的解决了这个安全问题。
数据生命周期其实从真正管理的技术上来讲,刚才前面介绍过了,我不多说了,基本上从数据的产生、存储、使用和销毁这几个阶段来进行管理。但是这里面再稍微多提一点,说到数据,其实是个非常复杂的过程,刚才咱们的律师也说了,基本上很少有企业能够把自己的家庭摸得特别清楚,在云里面更是这样了。我们怎么来做这个数据治理呢?我们有一个核心的理念,就是我们“抓大放小”,什么叫抓大放小,就是我抓住最核心的东西,哪些是我绝对不能丢的?哪些是我绝对不能漏出去的?比如说我的帐号信息,用户的隐私信息,包括各个体系之间的密钥信息,这些类似于这些核心数据我们会系统性的把它梳理出来,把这些数据进行系统的监管和监控,整个数据在我的产生、流转和使用的过程中都会进行相应的监控,那么来做这个重点的防护。
刚才前面给大家介绍的是我们一个体系比较宽泛的东西,真正落地的时候其实还是需要各种不同的手段来做的,比如说最基本的,我们都说了,技术保障永远只是后端的一个东西,你要做到真正的安全,我们就要尽量的把安全的工作前移。所以说我们在整个京东云的开发过程中,我们会推行我们相应的SDR开发的体系。换句话说,在各个组件的开发过程中,从前期的设计阶段、编码阶段到后面上线前漏洞的安全检查阶段,我们都会有对应的安全卡点进行强制性的检查。换句话说,我们把安全做成了一个组成的极限,能力的极限,我们把整个安全能力赋能给各个团队,作为工具给他使用。你在你的每个生命周期阶段,你只需要使用我提供的工具,就能进行安全对应的风险的管控。尽量保证我在业务系统开发上线之前,绝大部分我们已知的安全问题已经被解决了,当然我们做安全的人大家都有一个口号,绝对没有人敢跟他说我的系统是百分之百安全的,任何一个一定会有它隐藏的问题的。
这就是我们的开发流程。
当然这个开发流程我们会有自己的一套标准和体系,以这个体系为指导进行我整个京东云软件生命周期的管理。
开发完了以后,另外一个重要的环节就是运营,运营我们有一个核心的一个要素,以前大家在做,尤其是互联网公司,就是大家在做安全建设的时候,可能有一个最大的问题,更多的是看边界,很多人都认为我把边界堵住了,就很安全了,内网基本上是一锅粥,换句话说所有的系统都放在一起,互相之间也没有访问的隔离,也没有控制。
那我们现在有另外一个理念,这个理念也不是特别新,是零信任的理念,其实在国外,尤其是Google是最早进行实践的。零信任是什么?我们认为这个堡垒是最容易从内部突破的,换句话说,外部也很容易突破。但是因为你对这些边界很重视,那么你的监控、防护手段相应也比较多,相对来说它通过难度比较大,内网由于你是一片空白,从内部作案,容易度就更加简单一些。其实有个数据,我在这里没写,往往在安全事件造成的损失中,往往是从内部被攻破的,造成的损失是远远高于被外部攻破的结果的。
所以说我们是以零信任为基础,换句话说,我们要构建一套最基本的信用体系,也就是说以我所有在网络中的元素作为主体,也就是说我的主机,我的应用,我的服务它都是里面一个个被我管控的元素。我除了在传统的网络边界上进行边界划分和隔离控制以外,我们在互相访问之间,我们都默认互相是不可信的。这样的情况下,我每一次调用都要进行相应的健全,比如A和B之间有调用关系的时候,我B服务是不可能开放给所有人的,也必须进行健全。那么在披露这个健全通过以后,才能进行相关的方案。
这样就带来了一个最大的好处:
第一通过这个制度我们可以理清系统与组件之间的访问关系,大家都知道这个其实在安全治理上是一个非常重要的一个环节。
第二通过健全我进一步加强了这个系统的抗攻击性,换句话说,不是每一个人进到我的内网就可以访问我的系统,你进来以后还得知道我各个组件之间的访问关系,你还得知道这个组件之间我的健全和访问的控制策略,你才能模拟对授信的主体去进行相关的操作。这是一个比较重要的体系。
基于整个风险管理、智能分析,这些都是一些手段,这些我相信在座的应该在日常的工作中用的比较多,在这儿就不强调了。
那么以此为基础,其实我们刚才说了,因为我们既是甲方又是乙方,所以我们在做安全建设的时候,稍微有点区别,首先我们自己就是一个客户,换句话说,我所有开发的安全的系统也好,安全的产品也好,首先要先服务于我京东云自身的安全,那么在这里面提到传统的时候,有很多各种各样的设备,比如说云wep是解决wep问题的,高防解决Devdaps攻击服务问题的,主机安全更不用说了。因为你在网络上你能看到的信息是有限的,所以你在做安全管理和控制的时候,终端安全基本上是不可获缺的一环,再包括我的漏扫,我的入侵检测,流量审计等等一堆的东西,做安全没有说哪一个设备可以包打天下的,一定是一个解决方案,是一套怎么说呢?换句话说,更多我们是在筑城墙,就是不断的抬高你攻击的门槛,尽量在我的成本可控的情况下,尽量的来提升攻击的难度,使我的系统相对安全。
这么一堆东西,你接到系统里以后,如果按照传统的方式一样一样管理,互相之间没有打通,其实它带来一个最大的问题,第一运维非常困难;第二系统没有打通,很多的高级威胁发现你是很难做的。所以说我们在建设的时候,我们会有一套基于云态势感知的体系。这就是我个人这两年来,我觉得做云来说,做安全做的最舒服的一个地方,因为做传统安全厂家的时候,当你做态势感知,你想把各个不同的系统挖通的时候,你所带来最大的一个困难,就是你会面对千变万化各种各样不同厂家的设备,但是做云的时候,因为很多东西都是原生的,那么这种情况下,首先在建立的时候就定义了自己一套标准的体系,那么我有自研的产品,有合作的产品,合作产品你接入的时候,因为我的环境相对可控,就按照我的标准方式来接入。这样的话,我就能够天然的做到数据的集成和兼容性。
以态势感知为核心,我可以把这些所有的触手相关的数据统一起来进行统一的分析,当然了全靠人也不行,全靠人的话,大家知道每天产生的数据量是非常大的。所以在整个态势平台上,我们会有相关自动化分析的算法和相关数据分析的引擎,来把我大量的安全的原事件进行关联分析以后,来进行我的加权,来真正的发现对我来说威胁最大的一些实践和把它提取出来来进行告警和后面的闭环处置,这是一个自动化的部分。
当然机器相对来说,目前就我个人的经验来看的话,它的准确率相对来说孩子做不到100%准确,所以我有刚才我说的,我们运维团队来使用这个态势感知平台来进行最后的确认环节,通过这两个技术的相连,我们能够把这一整套安全体系运营起来。
这是人和技术两个维度,那么我们怎么来闭环呢?首先我们会有一个专门的用户的运营团队,这个团队它主要的责任是面向客户来提供安全相关的服务,同时我们还有一个自己的产品开发运维团队,这个团队更多的职责是我基于云的这种原生的安全产品的开发和维护。那么这两个团队,其实在我们的组织里面是把它打通了的,换句话说,这两个团队之间已经没有隔阂,在很多组织里面,其实这两个团队是各自独立行事的,相对来说就会有些困难。
因为我产品开发团队我更多的是利用机器、利用数据,利用自动化的方式来做事情,那么我这个运营团队它会有更多一些人的经验和外部信息的来源,通过这两者的结合,我通过我的攻击人员平台,就能够最终给我基于云上客户提供一个相对来说比较稳定可靠的安全服务。
那么在整个服务的建设上,刚才前面是罗列了一堆的产品,我们一个原则还是围绕着数据安全为核心来建设,所有的安全的防护手段都是围绕着包括我们的数据加密、数据库的安全、通信的安全、接入的安全这几个不同的维度来做,几个大的原则:
1、进不来,大家都知道尽量抬高你的门槛,这主要是我们边界上进行相应的防护手段的建设。
2、看不见,也很简单,这个原则就是什么,我核心数据都会进行加密存储,即使你真的进来了,你把这些核心数据拿出去了以后,你只要拿不到核心的密钥,也依然看不到数据的。
3、拿不走,更不用说了,在我们所有的网络体系里面,其实我们会有一套除了威胁发现的体系,我们还会有一套整个流量监控体系,换句话说,我们会对云里面各个应用的流量进行日常应用的建模,一旦我们发现在某些特定的主机有异常的流量产生的时候,那么我们会进行及时的报警,我们相应的运维团队就会集成的处置。
这是几个大的原则。
除了自身用,其实京东云还可以对云以外的用户来提供,换句话说,我们如果说自己的业务系统,我可能跑在阿里云上。
这一块具体的因为时间关系,我就不多说了。
刚才前面讲了安全涉及的东西特别多,我相信没有任何一个厂家能够独立去覆盖所有的安全领域,但是作为云,尤其是公有云的厂家来说,我认为它的一个主要职责就是替客户解决问题,换句话说客户可能不专业,但是我们不能不专业。所以我们要联合一个安全的生态,给云上的客户提供完整的一体化的解决方案。所以说我们在除了有自研的产品之外,我们还会建立一个开放合作一个共生的体系,我们会从不同的安全维度,比如网络系统数据的应用,还有安全管理,移动安全相关的,我们会有一些合作的上跟我们合作,把这些产品纳入到我京东云整个产业体系,大家登录京东云的时候就会很容易的看到我们会有一个安全的市场,可以选用云原生的服务,也可以选用云市场里的第三方的安全产品来进行集中的管理。
刚才说了这么多,最终想要达到一个什么目的?大家知道其实现在企业都在进行数字化的转型,数字化转型对企业的管理者来说,其实提供了新的要求,以前可能一个企业的管理者更多的是技术的管理者,它只要说我保证我的技术路线能够符合我这个企业IT的建设和业务的需求就可以。但实际上,你光是被动的跟随,其实你已经很难满足这个企业业务的竞争性要求了。所以很多时候我们现在更多的是通过技术来促使企业的业务产生新的变革,能给企业的业务提供新的竞争力。这就要求企业的技术管理者,由技术管理者的角色转变为业务领导者的角色。
对于IT架构的改变来说,聚焦在安全上,以前传统的基本上是安全的信息孤岛,资源都是集中化建设,上线无论是采购周期、上线周期,包括后期的运维都会很困难。到第二个融合架构阶段,做到的完全资源池化,其实现在目前来看,绝大部分,尤其是设备商,安全厂商在做的是这个事情,相当于我把我的安全设备能够虚拟化了以后,以不同虚拟化的形式来提供出来。真正到云原生,我们一个理念就是安全即服务,换句话说其实云要给客户提供的真正的是一个安全服务,而不是一堆服务。用户的需求就是我上云以后我的业务能安全,很多,尤其是在中小型客户,我要养一支专门的安全团队来做相应的安全管理的时候,无论从成本上,还是人员的招聘上,各方面都是有问题的。所以说云服务商要解决的问题,就是怎么把我一系列的产品转换成服务,真正的以最简单的方式提供给客户,这是我们要解决的问题。
那么在整个数字化转型里面,从京东云的建设来说,我们有公有云、私有云、专有云还有混合云相关的产品。这个是传统云的划分。其实京东云的建设更多的是关注于上面的SaaS层面,比如说我们有对应的供应链云、电商云、营销云、零售云、金融云还有园区云,大家可以非常清晰的看到,这些都是围绕着京东自身的核心能力来建设的,这也是为什么我们会在云这一块发力的原因,更多是通过我们自身的实践,自身的应用,而我们这些我们认为比较成熟的,对大家能够有建设性的东西,真正的赋能到云上,提供给用户来使用。
最后,受一下京东云的愿景是什么?我们京东云的愿景是成为可托付的中国云服务首选品牌,同时放眼国际,这是我们的一个愿景,愿景很大,当然要走的路还很长,也需要广大客户和合作伙伴们的支持。但是我相信以京东的拼搏精神,在大家的努力之下,我认为这个目标还是可以达成的。