黄乐:首先感谢大会给我这个机会与大家分享一下央视网信息安全建设历程。
刚才杨总、李总、邵处都说到数据安全,我们一个比较明显的理解,数据安全上很难做到产品化的东西,每家安全需求,对每家安全的特点都是不一样的。数据泄露上,央视网恰恰不是最重要的,不是不重要。央视网有很多点播、直播内容,视频内容其实是免费的,我们用户数据非常少,有自己的安全需求,不是太一样。文艺想了半天选了稍微文艺一点的题目,但过程一点都不文艺,不是很傻很天真,其实是很苦很尴尬,后面我们会说一些尴尬的事儿。
我们团队从2012年开始正式接手央视网的信息安全工作。刚刚开始做的时候是个堆砌,之前邵处说了一个事儿,之前我们把所有的工作交给设备和产品,让它们帮我们做所有的事儿就认为搞定了。事实上,后面发生很多事儿证明我们的想法是错的。基于我们发现的一些比较尴尬的事儿与大家做分享,还有我们自己的想法。
第一,页面篡改不知情。
不一定就是篡改,可能就是页面的一些问题。我就遇到总工站在我后面等着解决问题,馒头是汗,非常尴尬。这是对我们自己业务感知上不是很灵敏,尤其对外,对公网的业务,这是我们很痛很痛的一个点。
第二,黑客入侵无感知。
我们做产品时经常说无感知升级,是很好的事儿,但黑客入侵了无感知,这是很恐怖的一件事儿,最大的一次事儿是欧洲世界杯时被黑产盯着上,我们进行了对抗,这个事儿经过一周,我们找了一条路他又堵了一条路,反复拉锯战,当我们复盘时发现他为什么能满腹找到新的路径干同样一个事儿呢?因为他对我们系统非常熟了,至少在我们系统待了四个月,他盯我们很久了,因为我们也放出消息央视网独播,其实后来也不是独播,但就是被人盯上。黑客入侵时,他是4个月前就进来了,拿到了内网我们很多权限,当时我们是不知道的,也是非常尴尬的一件事儿。
第三,漏洞永远补不完。
今年有一个事儿,也是有人进来的,但没有做太大的破坏。它是通过一个漏洞进来的,当时我们问了自己几个问题。
1、这个漏洞安全部门有没有发现。
2、如果发现了这个漏洞有没有通知给业务。
3、业务有没有整改。
4、整改之后有没有复查。
这4个问题问我们自己的时候,第一个问题还稍微可以追溯一下,剩下的几个问题我们不知道,好像发现过,有没有和业务说,也说不清楚,业务有没有改那就更不知道。漏洞是最重要最基本的工作,我们这块做得也不好。Strusts2漏洞去年反复在爆发,3月份我在网上查了一些数据,爆发之后一个小时之后有26万次的攻击,安全云上被拦截下来,这说明黑客对漏洞利用效率相当之高,有些老的漏洞反复修反复修,修不完,这些基础工作做不好的话,将来很多安全工作其实是无法开展的。漏洞也是我们一个比较头疼的问题。
第四,设备升级无止境。
央视网潮汐效应非常明显,包括我自己看的都非常少,我周围的亲戚朋友里看央视网最多的是老岳父,他没事就拿着手机看直播。但去欧洲杯、春晚以及2015年有个阅兵时,单点每秒新建几十万,上千万的并发,压力还是挺大的。我自己总体工作上比较尴尬的一点,我们做信息安全工作时,整个投入,不管资金投入还是人力等不太可能和很大的互联网公司相比。但我们承载的压力,公司以及国家对我们提出的安全要求还是挺高的,这是不太匹配得上的,是我们宏观上觉得比较尴尬的一点。
这时候我在思考一些问题,我们持续地在做工作,持续地在出事儿,好像工作越做越多,故障越做越多,我们在想我们的工作是不是做得特别差。简单地把工作做个梳理,日常的东西大概也都有,央视网现在整个资产有1400域名,2万个IP,服务器6000、7000台,日常维护、漏洞挖掘、原码、管理手段也都在。内部统计数据不重要,包括管理泄露也都梳理过。然并卵好像没什么用。
我们感觉最重要的一个点,现在的安全团队和公司的安全投入以及现在所要保护的资产和公司、国家各种要求是不相匹配的。比较重要的原因就在这儿。做了这么多年,我们也在想这个局怎么破,我们好像也没法跟公司说,人家那么大的团队,我也要多少人去做,也要多少预算去做这个事儿,可能还比较难,我们想了一个策略,其实说起来很简单,就是“重点业务重点保障”。我今天上午没来,也是内部开了一个会,发布系统的一个安全规划,面对重要的发布系统,我们大约有500台主机,作为网站发布是最重要的,还有6000台左右的主机可以说是没那么重要的资产。重要的资产做重要的保护,安全检查、漏洞检查安全周期缩短到一周,每周梳理一次安全检查,安全保护方案要做得更加严格,对于正常的业务精力不到就不做那么深的检查。所以,我们把有限的钱,有钱的资源,有限的人用在最重要的地方,肯定不可能无止境投入,但也不会很大的投入。各个公司差不多,公司领导层还是很注重业务,看得见的发展。
我们团队以前做运维,可以理解成是卖药的,你得病了吃药肯定能好,而且你得病必须得吃药。我们做安全这块有点像卖保险的,你还没出事儿,我告诉你你有可能出事儿,出事儿了以后怎么办,反复灌输这个理念,卖药肯定卖保险容易多了。这也是我们的一个自嘲。
我们其实制订了安全规划,安全标准,我想把我们面临的痛点和思考说一下。
页面篡改不知情,页面问题是央视网的第一大问题,也是第一安全需求。主管说为什么不能买一套这样的设备,把这个问题解决了,不买一套满页面都是这样的问题。我们把市面上主流的安全产品基本都捋了一遍。发现这一块,厂商做得还不够好说实话,要不时效性不行,要不他无法判断你是正常的发布还是被篡改,要不然就是要和发布系统做深度结合,这是短时间之内也不太可能解决的。我们摸了一遍之后,对页面篡改的一些需求也都清楚的,这也是我们内部自己开发的第一个项目,叫页面监控系统,不是防篡改。
我们这个系统在一期时做了一个假设,我认为,发布系统发布出来的东西一定是对的,我的系统会对接发布,拿最新发布的一个页面内容。第二,我们从公网上,央视网在国内有十几个节点,十几个节点配不同的DNS,通过DNS调度策略模拟用户去抓央视网现在的页面,哈希做对比就可以了。
两个问题,我假设发布系统是对的,其实这个假设是不太能成立的,尤其现在APT这么厉害;第二,我搞不定的事儿,动态内容其实是无法比对的,这个核心是个比对。基于这个,我们现在在做27,会基于大数据和所谓的人工智能,把一些文字、图片做深度学习,去判断它是否正确。这是页面篡改的监控,不是页面篡改,我们就监控到了怎么办呢?有个应急恢复系统,其实它并不仅仅针对页面篡改这一件事儿。央视网之前团队做网络运维,从2008年开始。运维上,我们和广电和很多人交流时存在一个问题,我们应急时把宝要押在值班人员身上,不可能把最精干的人24小时排开了让他去值班。我们不能说值班人员水平都不好,但很难保证水平都好。应急恢复时,我们想把人能做的事儿都放在系统上,一键出发,不像BAT自动启动预感,我们现在是手动,权限是个问题。我们做的是,只要判断好,执行哪个应急预案了就可以判断它那个执行是百分之百准确的,执行是快速的。现在我们基本改变了页面防篡改的问题。
黑客入侵无感知。
经过去年入侵对抗之后,我们给自己定了一个目标,Server端我们一定要有自己的监控手段,否则很难在边界干一件事儿,现在正在开发主机安全的一套Agent,配合终端。当时我们内部配合的需求,探针一定要安全,我们用过安全ERK,当时就和黑客对抗时用ERK固定进去了,后来发现第二天果然有日志,就进来的,大概两分钟不到把Agent干掉了,后面干的事儿我们看不见了。这次做Agent最主要的是当然是软件,第二保证探针不容易轻易被杀掉,即使杀掉之后我要知道。
机器学习这个概念有点大,我们发现,很多看上我们的黑客很“忠诚”,一直盯着我们,对我们非常了解,甚至比我们自己的系统管理员还了解我们的系统,如果我们定一些阈值来找它的问题的话,可能会比较难。我们现在是想通过一系列的行为学出一个基线,最后让这个异常可以被检测出来。
雾计算,是我们套了一个概念,以后我们会支持8000台以上主机,预算在核心的话,中心压力会很大。大到一定程度就不是压力大的问题,而是项目会被砍,因为我们这个安全项目部可能搞几百台服务器只搞个终端安全。我们现在的策略是能放到终端的所有运算全放到终端上,放到Client端上,一定要放在server端上才放到server,减少了我们项目的体量。
漏洞安全问题。
安全部门发现漏洞,这个漏洞有没有通知业务部门,业务部门有没有整改,我们有没有复查,其实还有一个问题,这个漏洞是新的还是复发的以前有过,这是我们自己也遇到过的一个问题。一个弱密码告诉我们123456赶紧改了吧,他改了,我们赶紧改,检查完之后你马上就改回来。后来发现其实不是这样的,他说我的系统之前出过一次问题,我就把镜像备份回来了,把密码忘改了。我们发现漏洞复发也是个很大的问题。刚才说的五个问题,我们通过漏洞全生命周期管理来解决,针对每一个漏洞给他做个生命周期管理,从生到死,如果他再复发,再重生的话我们继续管它。包括它和资产的复值放在一起。
综合排名和奖惩条例主要是让大家提高重视,很多人说有漏洞我就修,很多人说这是安全部门的事儿,你来搞。我们会通过一些机制,让大家把这件事儿重视起来,把排名放到总监前头,挂个大屏,让大家提高认识,提高重视。
设备升级。
现在大家提出来,有个很完善的解决方案,就是安全云,公有云和安全云非常多,大家都有这个产品。央视网出于自己的实际安全需求或敏感性问题没有把所有东西迁到云上,我们有自己的私有云。私有云的安全性上,这个云我需要透明模式,因为公有云都是代理模式,包括私有化以后还是代理模式。
如果是代理模式涉及到一个问题,如果这个云出问题了,要通过DNS切换,因为IP变了,央视网DNS系统,因为我们没有做到HTTP DNS,有很多页面端,手机端也没有实现。所以,DNS切换时间会非常长,而且local电压根本没法管。这种情况下,如果我们做代理模式的话会存在很大的问题,运维安全云团队的压力会非常大,我们做设计时就说一定要做到透明度。现在实验环境下已经实现,现在正放到实际环境里测试。大概的方式是通过SDN流表,再配合传统网络协议实现高并发,如果只通过SDN流表,稳定的并发数应该只有几千,再往上就应该不稳定了。我们现在是让SDN流表数量在1000以下情况下实现1000万并发,这点我们基本上做得差不多了。
安全云其实是个防护手段,我们会把很多防护策略都放到里面,但它需要一个策略的来源,其实就是安全态势感知,现在态势感知大家都在说,我们也在建,这里有个非常痛的点,我们提出安全态势感知是2016年3月份提出来要建,基本思路已经清晰了,就是没有自己的开发团队,等着公司的项目一块儿做,一直等到今年我们项目刚刚批,今年会做安全态势感知。如果有可能的情况下,安全态势感知团队要有自己的开发能力,去京东交流时,他们有那么多的开发团队,我非常非常得羡慕。之前邵处提过,安全的本质是对抗,它就是一直在变化的。如果很多事儿今年规划明年干,很多东西都变了,全都不一样了,我们需要的就是快速迭代能力。今年我们也在做自己的一个开发团队,虽然人数会很少,但我们会把一些小的东西做起来,像漏洞全生命周期管理,这不难的,只要把需求提出来,算法规定好了,很容易把东西实现。但因为我们自己没有开发团队,这个东西就且等了,没头。
这几个痛点我们基本上有思路,时间有限,我们说说未来要关注的几个点。
未来关注。
1、法律法规层面。
6月1号《网络安全法》正式实施,圈里讨论比较热烈,说我一不小心就会犯法,本来是好事儿,好像怎么怎么着的。我们倒认为,这是很好的事儿,第一它规范了一些行为,有些东西就是不能做,红线就是不能碰,以前很模糊,好像我做安全的,做挖洞的,技术非常高,有些事儿想怎么弄就怎么弄。这是个规范,非常好。
等保2.0,去年开始我们就在关注这个事儿。我们做安全云,相当于我们在用云做安全的事儿,同时央视网也在大规模做私有云。对云的防护到底需要做哪些工作,其实我们现在做得还是不够的。我们也会更深入地了解一下等保2.0,尤其在云防护的概念
2、态势感知平台增强。
去年我们提的态势感知,今年开始做,这一年里我们有很多思路出来,去年提出来时,很多都是没有,很多思路也没有,我们今年规划二期态势感知时就把很多思路放进去,包括现在有一些数据,因为一期时我们只把很少的数据放进来,二期把很多的数据放进来,最终是辅助决策,不管从领导层还是员工层都知道我们策略应该放在哪儿,应该用什么策略来做事儿。
3、团队建设。
人非常少,安全开发的事儿也不多说了。我们尽可能扩大团队人员,争取资源,因为我们人太少了,还需要多一些人来做事。
4、开放心态。
前段时间,央视网不管是运维还是安全团队都是闭门造车的心态,未来我们要多学习,多思考,多和大家交流,多干很多事儿,希望把自己的思路打开。下一步,等到这些事儿做完的时候又是一个新的开始,甭管是运维还是安全可以说是无休止的事儿。
如果大家对央视网工作上有什么建议和想法希望多多和我交流。谢谢!
主持人:感谢黄乐给大家的精彩分享,刚才黄乐也说了,自己的团队还是需要去扩张的,其实还有个选择,京东是个很好的选择,可以带团队过来,没有问题。刚才黄乐提到《网络安全法》,对每个云安全公司、电商公司都慢慢提上一个高度,前段时间公安部也组织会议,召集大家把等保和安全方面的工作提上一个台阶,在这上面,如果大家在行业当中能够看一些新闻的话应该也可以看到,现在每家都在解读、学习安全法,前段时间京东也在做一个事情,《网络安全法》出来之后,很多白帽子挖漏洞的时候还是说哪些行为是OK的,哪些行为是违规的,我们也帮助白帽子合规,包括合法挖漏洞的事情,甚至包括整个《网络安全法》出来之后,公司级别我们有哪些制度还不完善,也梳理了一遍,这个思路大家也可以学学,包括京东在整个过程当中,我们把相关部门整个做了一遍安全培训,包括法务部门。后面大家针对《网络安全法》上,还是需要拿出一些时间,包括黄乐刚才提到的合规层面,大家可以多去考虑考虑。