东软杜强:人工智能——网络安全产业发展新机遇

杜强:谢谢大家!今天我非常荣幸有机会跟大家做这次汇报,我汇报的题目是人工智能、网络安全产业发展的新机遇。

为什么说人工智能技术能给整个网络安全产业带来新的发展的机会呢?我用一个非常直接的例子给大家做一个概要性的介绍。比如说,以防恶意软件或者是传统的病毒的功能为例,这块的是非常大。比如说MCAfee实验室发现已经有超过3.5亿的恶意软件的样本,而且增长速度是很快的,每个季度都有10%到20%的指数级的程度在增长,对安全厂家来说做这种工作是指数级的增长的投入。

随着人工智能技术的发展这个情况在改变,新型厂商已经开始使用了人工智能的技术,包括如何深度学习的技术,做到了很好的尝试。我看到有一些厂商已经可以在20万个左右的恶意软件的样本上做机器学习的训练,完全脱离人工的方式,可以达到95%左右的识别率,这种识别率和它对整个的产业规模的影响是非常非常地明显的,也给我们带来了很震撼的东西。我们把人工智能的技术跟网络安全产业的结合点分成几大类的场景,下面我一一跟大家汇报一下。

首先一个非常常见的场景或者是一类非常常见的场景是利用人工智能技术做网络安全分类。安全网关很多的功能都是在做分类,包括入侵防御就是把流量分成有攻击和无攻击的两类,网关的防护病毒其实就是在内容上进行分类,GLP等都是在分类,后面才是产生了一些动作,到底是丢弃还是要放过。

过去的分类的技术来自于两个来源,一个是来自于厂商,一个是来自于用户,厂商是以签名的方式来提供的,客户多数是对厂商的基础上做一个配置,人工智能引入了之后对产业会产生一个非常大的影响,在厂商这一级像前面的防病毒的例子可以看到,可以把厂商针对安全防护的非常高的指数级的成本变成常量的成本,可以跟恶意的成本根据对抗。而且会有比人为人工的防御方法更高的准确率,并且随着样本的获取,这个准确率会越来越把人工的转移到后面。

另一点有一定的预判能力,他学习出来的东西不是case by case的规律,而是一种模式,对攻击和恶意行为的模式,所以这种行为有一定的预判能力,只要有不断的新鲜的样本会维持这种预判能力,这是我们看到未来对防御无论是网络攻击还是病毒都是非常有效的手段。当然从客户这方面也有很多很多的价值。

第二大类应用是安全分析的市场,特别是国际市场来看,近一到两年的资本的投入是非常地大,应该算是网络安全界或者是人工智能界投资的非常大的投资,典型的像IBM、微软分享的都跟这类平台有一点关系,解决的场景是给用户的行为画像和建模,建立APT关联大的时间、空间域的分析,把攻击链分析出来,还可以分析企业内网的泄密和场景,这背后都是人工智能的技术和产业场景的结合。

第三,很多客户希望网络安全的厂商能对未来的一个阶段内,一周或者是一个月之后的安全的形态、攻击的可能性和需要采取的措施做出一定的预判,这类的产品在国内是用态势感知类的产品做承载,态势感知类的三个level,其中L3就需要预判未来的安全形态,这背后也是人工智能的技术在后面做了很好的支撑。

讲了几个简单的场景之后,我们也讲讲在过去的几年里,在人工智能和网络安全的产业结合商业遇到了一些困难,我跟大家分享一下希望对大家有所帮助。这些困难分成三个层面。

第一个层面大家都知道如果想规模化地应用人工智能,特别是基于深度学习之后的算法一定需要大量的数据,很多其他的行业,互联网厂商做图像、人脸的包括自然语言处理的场景,有很大量的鲜艳的数据,这块我们在网络安全界并不是所有的场景都做病毒识别这样好,并不是所有的场景都有病毒这么多的样本。

比如说像APT,和基于网络性的攻击很难获取到大量的、真实的样本,我们在整个业界能看到的确实被录下来的真实的被攻击的样本是千级的量级,用这样少的数据做机器学习是很困难的。

第二是学术基础方面,很多行业像做图像、做语音的和做自然语言处理的,这些产业背后的一些行情和基本的算法都被学术界打通了,或者是有科研能力的大公司帮助他们打通,有非常优秀的模型就会被记住。我们网络安全缺乏这样的场景,过去十年来的论文涉及到网络安全和机器学习相关的论文引用的数据都是在97年、99天几份很少的公开的数据。学术界这个阶段没有获得可用于训练的数据,由于隐私的原因和产业不够开放的原因,反过来我们不能获得学术界的知识,使得今天在网络安全的解决方案还没有出来。

第三是在应用的维度我们也有一些问题。大家知道AI的投入和应用其实是一个重量级的投入,它的投入的成本相当高,数据的获取成本、人才的获取成本、基础设施的成本,加上投入周期都是重的投入,在重投入下一定要有大规模的市场和杀手级的应用来支撑。

我们分析了很多网络安全的应用场景会发现,有些应用场景还是缺乏这样的特点的,特别有很多的场景缺乏不可证伪性,比如说前面的态势感知的产品,很多的厂商都在宣传说我们的态势感知产品如何如何好,如何能预测出来多么高大上的事情,但其实你作为一个客户很难判断。

甚至作为一个专业厂商也很难判断,这背后是真实的技术的投入其是说只是对产品界面的包装和一个PPT的美化,如果你很难区别出这一点,这商业上是很难维持的。有了这些问题以后,我们也去尝试用我们的一些思路来逐渐地克服这些问题,我们也把过程跟大家分享。

首先跟大家分享跟数据相关的问题。机器学习特别是深度学习在互联网公司最先应用起来之后,互联网公司的特点是数据量趋于无限大,而我们网络安全厂商的数据量会受到很大的制约。所以我们会采取跟互联网厂商相反的思路,我们会采用高复杂的技术和算法模型来降低算法对数据的要求,反过来提出了算法模型和人才多元化的需求。因此采用了比较流行的Transfor等的方式。我后面举几个比较容易理解的实例。

比如说我们做一些垃圾邮件的处理,在机器学习领域的处理还算是比较成熟的领域。比较传统的方法就是把邮件影射成一个高位空间的向量,每个词出现给它记一个数。没有出现就是0,后面映射到比较传统的分贝器上,做端的端的分类。

这一类的算法其实已经商用了很长时间了,在大多数的垃圾邮件的正常分割上其实是没有问题的,但有一些细分的场景,针对一个人比如说我是搞IT和网络安全的,我的工作邮件和网络安全的垃圾邮件其实是没有能力区分的,这种情况我相信在座的各位都能感受到。

是因为过去的模型从词到向量包括后面的分类器都没有语义切割的能力,不能涉及到一个语义环境内的复杂的边界切割出来。要想尝试解决量的问题,很直观的思路是在邮件到向量的映射过程中把语义带进去,原来是1000万维的向量到100万维的,我们很直观会引入深度学习的多层的深金网络,只要往这个方向一走很容易发现你的向量数据会完全地不够。

像我们这样的公司想获取客户的邮件是没有可获得的渠道的,垃圾邮件倒是可以有渠道可以获得,正常的邮件是没有规模化的渠道获得的。所以就没有办法训练这样的一个模型,解决它的思路是引入其他的一些想法。

比如说Transfor的方法,我们想训练一个目标的网络和相似的网络里进行了训练,比如说我们在这里抓取了大量的新闻,我们抓取社交网络等比较容易获取的预料,一个是词到网络,另外一个是分类。,训练完的放到目标网络上,目标网络上的参数就被处理好了。

最后通过真正的邮件的样本做端到端的训练,这是利用Transfer解决数据不够的例子,还有就是利用人的知识和经验来解决入侵检测的问题。我们需要用深度学习的模型来进行入侵检测,分析流量到底是正常流量还是侵入流量。

最简单的是把流量存起来,有一些攻击的和非攻击的,导入到深度神经网络做训练,端到端看误差,之后做BT。同样只要往下一走就会发现这个样本数量完全不支撑一个深度的网络的训练,我们才有几千个攻击的鲜活的样本,要想做一个攻击和流量的差距是成千上万倍的。

这里面按照现在的技术引入了过去的知识,左边那边是把过去我们十几年来在攻防团队上积累的攻防的签名转化为逻辑规则,放在逻辑规则库里,迅速一个teacher的网络,这个网络在流量训练的时候跟目标的网络student的网络是交互式的网络,最后会把student网络融入到过去的经验。又会加一个噪声系统,这是集成了黑客逃逸和变种的知识,训练期会把攻击样本打大量的逃逸的信息。

比如说over到不同的协议上,把信息调走,这会使得目标的student的网络对变种的识别能力就非常好,这两部分的人类的知识通过网络架构融合进来会使得整个的网络在很少量的万样本,5000条左右真实攻击的样本下也能训练出达到相应水平的识别能力。

针对第一个问题,我们的经验是利用一些新的技术来把算法对数据的要求降下来。

第二,现阶段我们的思路是过去跟相关行业已经被别人打通的算法去参考,在这样一个大的做法架构下做一些修改和补充,前面讲的例子包括后面的例子算法大的没有原创的,也没有这个能力,都是在上面的修改、补充和组合。

但未来长远的时期,我们认为人工智能跟网络安全的结合是非常长远的,可能要在未来的二三十年都无法结束的,这个过程中我们一定要打通学术跟产业合作的屏障,所以说一定要共享,通过种种的手段在合理、合法、保护用户隐私的前提下来把数据贡献给学术圈,最终使学术圈也能把基础的模型做出来。

最后就是针对关键应用的问题,我们要识别比较关键的、容易产生效益的,而且要识别它的投入和产出的周期,如果说投入得太早了容易被拍到沙滩上,太晚了有可能赶不上潮了。针对这个需求,东软内部有一点变,我们东软内部也把我们识别到的很多的网络安全跟人工智能能结合的场景,按照我们认为它可能被商用的时间点映射到Gartner技术成熟曲线上来。

我们认为可以接受的是防垃圾邮件的产品,机器学习这种结合会比较完美。下一个是病毒和沙箱,病毒样本是非常好的训练,沙箱的虚拟环境做出来的行为日志到底是不是恶意的映射中间的过程,过去基本上是靠规则,后面会转发成靠人工智能的方式,会把这个映射过程变得非常地准确。

再后面是市场比较火的态势感知,威胁情报共享等等,这类的产品用户充满了期待,市场也非常地火热,但从AI技术的投入角度来讲,它有一点具备不可被证实和证伪的性质,换句话说如果在这块组织重兵投入,大家一定要做好被别人用PPT打败的心理准备。后面是一些IPS、APT这样的产品,这类的特点都是数据比较少,随着算法的不断成熟才能把它最终商用化。

然后是识别出一些比较有意思的杀手级的应用,包括网络安全的自动控制和脆弱性的自动挖掘,换句话说自动挖掘了软件的漏洞。这两个比较兴趣的场景我在这儿也跟大家做简要的分享。

自动化控制是解决什么问题呢?过去的网络安全产品其实种类已经很多了。从防火墙到IPS、IDS、DRP、沙箱等一系列的产品有三五十种,但没有用户把三五十种的产品都串到网络里。虽然是安全的,可是成本承受不起,因为不光是采购的成本,性能的开销和管理上的成本都承受不起,所以用户必然会在中间做一个很刚性的趋势。

那个摆一个防火墙,这是没有办法的办法,未来的网络会变成什么样呢?上面有一个只能的角度系统,它会收集整个网络的情况,收集下面所有的传感器的信息,根据他的算法来智能地角度下面的流量。只有在被怀疑的时候才会把特定的流量切给特定的监控的服务。

比如说这个流量我怀疑有问题了,并且这个问题可以被WAF的模块解决起来,过一会儿不怀疑了再切霍赖。所有安全基础设施得达到按需的模式,不调用你不会差距成本的情况,上面需要一个很复杂的人工智能的系统。

这样的系统实施起来之后,会大幅度地改变过去安全投入产出比,我们在实验室的仿真环境的测试发现,我们可以用到4%左右的成本,4%的开销能够把所有的安全产品都串在一起的95%到97%的总安全能力,整个的投入产出比会提升几十倍,我们相信这在未来是非常有趣的一个应用的场景。

针对脆弱性的智能挖掘,现在虽然说技术和工程层面还有很多的问题,但我们相信未来的5到10年确实可以被解决。过去黑客在挖掘一个漏洞的过程,是一个高度的智力活动,这个智力活动等价于在一个宽度和深度几乎是无限大的图里面来搜索一个非常小概率才可能产生的路径,这就是一个黑客在挖掘漏洞的数学上的等价的关系。

过去这个问题在所有的图的算法和规划算法上都不能解决,因为这个实在是太大了,黑客凭借着背景的知识和经验,以及非常好的判断力,再加上运气才能够从软件里找到漏洞,而这个逻辑逐渐地被机器学习一步一步地替代,这种可能性使得机器学习从过去历史上大规模的开源软件一个一个版本、一个一个迭代上把所有软件的BUG和漏洞产生的基本的原理当背景知识学来,然后再去做其他的搜索。

下一步的情况是搜索的时候可以大幅度降低每一步搜索的宽度和搜索的深度,这个问题我们相信未来5到10年是可以被解决的。网络安全产业基本上存在是建立在这个假设基础上的,假设软件一直有Bug,是长时间达不到收敛,只要通过人慢慢地在未来10年、20年间逐个地找到,所以我们有网络安全上的产品和组件。如果未来这个问题被解决之后,肯定会对产业产生巨大的影响和冲击。

今天我汇报的内容做一个小结,今天我主要阐述了我们了解和看到的网络安全和人工智能结合的主要的几种模式,包括5个类型,包括了分类、包括了做安全分析,做预测,可以自动化地调度网络安全的资源,自动化地控制网络安全的资源,最后带有科幻色彩的可以自动化地部分代替黑客的漏洞的挖掘。在整个过程中,我们会遇到很多的问题,数据的问题我们要通过算法来调整,模型的问题跟科研院所和高校一定要采取开放的、长期合作的方式,才能把未来的十年、二十年的长期的战争打下去。

在最后的产业方面,我们也把我们看到的一些结合点分享给大家,希望能对大家有所帮助。我的汇报就到这里,谢谢大家!

上一篇:微软邵江宁:基于智能的网络安全的对策

下一篇:清华郑方:声纹识别——无线互联网环境下访问控制安全的最佳解决方案