Chenta Lee(IBM Security全球首席资讯安全架构师):
大家好,我是IBM的Chenta Lee,我目前担任的是我们全球首席的资讯安全架构师。今天很荣幸在这里跟大家分享人工智慧跟知识安全,跟网络安全的关系,以及我们对它未来的展望。
为什么现在提人工智慧?这个东西不是十几年前就有了吗?很多学生当时都去找教授做这些专题,后来沉寂了一段时间,但是最近这几年又热了起来,我们在AI方面有什么特别的突破吗?
我们在量子方面有什么划时代的突破吗?虽然我们很期待着,但是目前还没有。其实AI如何的演进是有一个脉络的。
从以前的网络环境我们看到的是一些有结构的资料,我们可以用一些既定的方法去分析。但是走到现在我们发现,从最近的报告当中我们看到的新形态的攻击,它的来源都是一些非结构性的资料。
什么叫做非结构性的资料呢?我们就是在网络上跟人员之间的互动,写电子邮件撰写的内容,微信上的信息,都可以找出黑客攻击的关键报告。
在这种没有结构的资料中,我们如何有效率的找到这些指示点?这就是我们所谓的认知时代的来临。认证技术包括各种AI的演算法,以及机器学习的技术,我们把它运用在一个特定的领域,我们要去找出对Security有帮助的领域,来抵制外来的攻击。
我们对各个产业做分析,随着IOT的普及,云端的成长和社交网络的兴盛,我们预计在每一个产业里面社交的成长超过90%,这当中80%的资料是我们无法掌握的,也就是非结构性的资料。
这些非结构性的资料就是来自人与人之间的互动,是使用自然语言去描述的,也就是所谓的自然语言。它可以是一篇文章,可以是一篇Research Paper,这些都是我们挖掘的一个来源。
我们来看看这些东西到底有哪些非结构性的是我们想要掌握的。从一开始这边只是看到冰川的下半部,上半部是20%的资料,也就是我们现在使用的资料,里面包含着各种自然报告,包含着一天200万笔的治安时间,这些Security事件都需要我们去花时间去看。
在冰山下半部80%是什么?一年有70万笔的Blogs,有一些可能是专业的,可能是业余的,他在网上发现一些潜在的活动,他就把一些IP抓出来,放到他的微博里面,这个微博谁去看呢?
今天我有机会可以看到他的微博我可以学习到这些知识,我今天看不到就不知道了,今年有70万笔这种资料。更别提18万的新闻和文章,各大新闻机构和厂商所出的文章一年有18万笔,我们有时间去了解吗?其实大家数一数就好了。
更不要提这些Research Paper,很多大学里面找到了各种各样的供给,放在这种Reseach Paper,在各大论坛发,这些1万笔的资料我们有时间去看吗?更别提在左边的这些林林总总,维基上面的,或者在微博和Facebook上面各种各样的言论都带有很宝贵的资讯。
我们来看一看整个自然产业的演进,2005年这个世界是相对安全的,我们的方法是在门口做了层层的防护,我们在一开始的入口处放了一个防火墙。进了防火墙以后我们摆了一台IPS,把大家都会用的服务放在里面。
之后要进入内网了,我们再摆一个IPS。我们进了内网以后做什么?我们用AD等来管理和使用这个权限,比如今天一个工程师不会使用一些网站之类的限制。除了AD以外,我们还放了很多不同的传感器搜集不同的漏洞,就是为了找出潜在的行为。
2015年的时候看似有效,但是2015年之后,资讯的爆炸,云端的兴盛,我们发现没有办法及时的掌握他们的使用行为。我们发现,所有的攻击都来自于这两个地方,一旦你做了这件事情以后,你的使用者,你在公司就不用上班了,所以必须把这两个开启出来。
这就是我们为什么有了一个东西是Security,使用者是正常的,从正常的行为当中找出一些不正常的蛛丝马迹。我们看到使用者连到一个服务器,之后回来以后他有些奇怪的举动,什么叫做奇怪的举动?
就是在不对的时间选择不对的服务,身为一个工程师,怎么会去跑到HR的系统捞别人的薪资资料呢?这是不应该发生的,这就是所谓不正常的行为。
我们开始搜集了大量的资料来建构完整的Security Intelligence的数据,现在非常活跃的我们来分析趋势和走向,这是一个完整的Security Intelligence里面的,当我们找出了自然漏洞,变成人与人之间漏洞的时候,我刚才讲的那一套就变得有点华而不实,它还是那么有效。
举个例子来说,一个使用者拿了一个档案下来,这个档案很小,来自于一个很奇怪的IP,他把这个档案丢到百度或者其他的平台搜寻一下,看看有没有人看过一样的计算。他找了半天以后发现没有东西,他以为安全了,其实不是。
三个月前,有一个在美国的Researcher,他们可能会想,搜索引擎的东西怎么都找不到?原来这个Security Researcher丢到他的网站上去了。世界上有谁有这个技术搜集全世界的网络上的图片,在这些图片里面找出特定的运算?其实没有人做得到,认证运算也做不到。
但是我们如果把认证运算套用在特定的领域,就像我们专注于这些Security Researcher的Blog的时候,我们可以从声音、图片里面提取我们需要的资料。
大家知道,最难防的是内鬼,今天我是一个银行的CISO,我想到一套方法来阻挡内鬼,我要找有负面情绪的员工,而且是在找工作的员工,如果符合这两个特质的人我要加强监控。
现在我去监控网络上的行为,任何要找工作的员工我都要加强监视,一天要看很多的信息,我发现不行。
我就想另外一个方法,要找这些有负面情绪的员工,接下来要安排心理医生,对全部的员工做心理咨询?不可能。
转念想,我来分析他们在微博上的文章好了,如果他不断的抱怨公司里面的制度,他很有可能就是下一个离职的员工。
假设我的治安团队里面有20个人,我的公司里面有2千名员工,这20个要分析这2千名员工每天在微博上发的文章,他们就不要吃饭,不要睡觉了,这需要认知运算来帮助我们了解这些没有结构性的资料,帮我们找出其中对我们有用的信息。
我们从Network Security的角度来看,我们传统的做法是什么?
从各个自然设备去搜集,我们看到Firewall,我们从IPS去看有没有一些什么威胁事件,我们从一些地方小区搜集对于我们有意义的资讯,来找出其中真正有威胁的一些行为。
黑客也知道这个东西不是完美的,总是有一个临时攻击和贯穿于网络,黑客总是有办法了解你在网络上部署了什么东西。我今天讲出来的东西黑客也知道,他们知道这些东西以后,他们就很有效率的去绕过。
所以变成我们像监控的东西是一个没有结构的东西,是一个没有结构的世界,这些东西可能是贩卖公司的文件,可能是兜售公司VPN的帐号,或者是在里面的公司员工想去找新的工作,他排了一个面试还真的出现在某个地方,这些一系列串起来,都有可能是潜在的威胁。
这张图很标准的展现出来就是过去我们心目中美好的世界是左边这张图,我们做了一个迷宫给黑客们,我们把这个迷宫做得非常复杂,摆了各种不同的治安设备,我们在路径上面还放了很多传感器,放了很多陷阱。
我们认为黑客们在走这个迷宫的时候,总有一天会踩到我的陷阱,我就会发现。但是真实的世界是在各位的右手边,这个迷宫是给我们走,黑客们非常清楚你在左边做什么事情,今天他做了这个迷宫,把我们搞得七荤八素,这个迷宫是用所有的渠道做的。
包含了一个人在网络上在Facebook上与人的沟通,或者今天看了一条新闻,或者是看到了一个问题,这些都是人与人沟通的渠道。这些黑客很清楚,要找出这些资料很困难,第一个困难就是法律上的问题,就算我有办法监控这些内容的话,我要怎么有效率的搜集散在各处的四面八方的资讯?我可以有效率的收集吗?
这些是以前资料的好几百倍大。所以这个迷宫摆明了就是给我们这些Security的专家走,而且会走得非常辛苦。
我们讲认知运算运用到安全上面,我们叫做Cognitive Security,可以怎么做帮你发现网络中奇怪的举动?我们了解到一个使用者在网络上的Aliases是什么,可以是你公司的员工,可以是外面的黑客,他可以由多个不同的Aliases,他在不同的论坛里面有不同的ID。
一旦我们串联起来以后,我们可以从这些ID出发,去找出这些ID后面藏的故事,有没有人在找一个破解密码的软件,有没有人在网上兜售VPN,有没有人在网上进行某一家银行内容的搜寻。
我们可以得到一些IP、DNS,电子邮件DNS,我们利用在已经有的自然设备上是OK的。我们可以知道这个黑客的真实姓名,甚至是它的居住地址,我们甚至还可以在我们的治安设备上,把某个国家,某一个地区的交通给搞倒掉,这个都是Cognitive Profile,关注在做什么对他有意义的事情上面。
这个Cognitive如何把这个Security做出来?
我们平常在网络上的新闻、在微博和维基上所有的东西,都可以给这个Cognitive System,接下来问他,你觉得这个事情是可疑的吗?
之后就得到一个答案。这是简单的三个步骤,累计了过去电脑发展30年之后的结晶。
我们通过大量的分析和运算,才有办法知道一个准确的答案。这个Cognitive Security是怎么做分析的?
从我们的Security设备收上来的资料,再加上Security Data,这个Data就是在大环境怎么做治安的部署。你的内网是什么,你有几台基础设备,这些都是Security Data。
我们再加上针对特定产业分析出来的这一群黑客特别喜欢打医院,这些黑客特别喜欢打银行,我们套用这个特定产业的分析,最后再加上感情的资讯,就是人与人之间的互动。
今天我有员工在网络上的行为,我是一个很不确定的,或者是我怀疑有抱负心态的,或者今天是开心的,或者今天是难过的,都可以是用作特定产业分析的资料,就可以帮你归纳出想要的资料结果。
在这里举两个例子,比如我问一位同事,我说你觉得今天一个IP特别出现在我们的产业里面,我是不是应该关注这个IP?
我的同事就讲,我觉得这个IP对你来说是非常危险的,因为我在其他的医院或者其他的地方也看到了这个记录。甚至我可以跟同事说,今天使用者在下载一个文件,请问你在其他地方看过一样的行为吗?
他可以分析大量的资料来跟你讲,没错,我在其他的产业,或者在其他使用者的网络中也看到了一样的行为,这可以提供一个非常有效的指示来给Security的人员做决策。
我一开始讲到AI不是新的东西,Cognitive Security只是运用新的技术提供到特别的领域,代表我们的Use Case是最重要的,这个决定了最终的结果。
这个Cognitive Security对于一般的Security来说是一个非常好用的工具,可以是一个非常强大的Q&A系统,你给他问题他就会给你答案,分析出非常海量的资料,通过运算分析出对你有用的资料。
接下来它可以甚至帮你做Compliance检查,我们今天有认知运算以后,我们是有感觉式的去检查,你可以你的同事说,你觉得我这台电脑是不是符合自然规范?你觉得我这台电脑有哪些可疑的行为?他可以根据以前的记录跟现在的记录帮你做判断。
Compliance现在我们可以了解到一个网络环境里面,不管是外面的黑客或者是里面的员工,他的意图是什么,或者他做一件事情的动机是什么,为什么他今天要连到这个网站,他是想找免费的音乐,免费的电影还是一个攻击?
我们可以通过动机和关注来分析出来。甚至我可以攻击里面的一些智慧财产,可以说我们的资料用在网络上不要外泄,或者是哪些资料是高风险的资料。
最后我们还可以甚至做到所谓的Early Warning,他今天要做的是找一些免费的电影,他连接到网站说,只要连到这个网站就可以找到,这一切的都是合理的,他一点下去之后,我们可以看到他有一系列奇怪的动作。
所以如果我们有认知,我们有办法关注的话,我们会发现你的使用者中有这样的意图,你要特别去监控他身上的行为,这就是Cognitive Security可以带给我们的价值。
Cognitive 本身并不是一个完整的解决方案,但是它是构成一个完整解决方案的最后一块拼图,我们来一层层的讲。
最上面的是我们的IPS File,可以提供给我们最真实的网络资料,更重要的事情,不管上面那个大脑多么聪明,它分析出来的一些结果,最终还是要交给最下面的来做执行,所以这个东西是不可或缺的。
我们搜集了大量的资料以后,举个例子来说,我是银行的CISO,为什么我要关注在零售业他们看到的这些威胁?
我想要知道我的大学同学在银行业担任CISO,他今天看到了什么问题,我要怎么去调试我现在的Security政策,让我下面的Security来加强预防,这是我想知道的。
现在你部署好了一切,接下来你需要一个团队来帮你做24小时,365天的监控,因为黑客们是不会休息的。
这个团队你可以记住,你可以请外面的团队帮你做,他们要非常努力的做分析。他们要做的分析是,把我看到的所有的事件跟Security做连接,今天我这个连接到的地方是不是跟一切都来做连接?这一切都是Security的一个团队要完成的工作内容。
黑客们也不是省油的灯,他说你部署了这么多东西,我不打算打穿你任何一个节点,我直接从资料下手,通过Social直接跳到内网进行攻击。
我们做的方法就是我们搜集了大量的资料,海量的资料,全部丢给Big Data Analitics,这些新收上来的资料全部都是没有结构性的,我刚才讲的那么多例子,没有东西有规则可循,没有东西有标准可以套用,这也就是为什么我们来帮助来分析这种海量的资料。
Watson Enables Security是IBM的,我们会给他各种各样的资料,甚至是教科书,维基,你想躲的各种资料我们全部给他。
我们运用了好几年的时间去训练Watson,让它读得懂这些Security的信息,我们要教给Watson说,你要注意,这个东西是一个Network,而不是一个城市的名称,花了一年多的时间训练,我们今天已经得到了一个非常好的结果。
Cognitive Security提供的就是一个Deeper Security Insight,我相信在大家的治安团队里面,总是有好几个人特别厉害,他在各种不同行业里面跳来跳去,手指非常快,他说老板,我发现了一个可疑的攻击,所以我们要把这个东西挡掉就可以高枕无忧了。
为什么他们那么厉害?这就是因为他们有Deeper Security Insight为。Context Security就是包装成一个Tool,给全世界的Security来使用,让大家一起来抵御这种潜在的威胁,这个就是Cognitive Security。
希望我讲的内容今天对大家有帮助,谢谢!
上一篇:腾讯黎巍:云安全—从虚拟到现实
下一篇:滴滴弓峰敏:安全范式的改变