本地与全局相结合 AI将使网络安全系统更加灵活

责编：mhshi ｜2016-11-10 10:58:01

据外媒（opensources.info）报道，机器学习的进步让人们能够以更方便的方式来训练安全系统以应对不断变化的安全形势。

近段时间，机器学习和人工智能受到越来越多的关注。新技术带来的诸多可能让人们兴奋不已。

一个事物一旦被贴上机器学习的标签，再想撕下来就难了。就像现在几乎所有基于网络发生的事情都能跟“云计算”扯上关系一样，未来“人工智能”这个词可能会跟“电脑”形影不离。

“大热之下也有些夸张的成分，”普华永道（PricewaterhouseCoopers）分析师Anand Rao说。“人们开始讨论AI变得超级聪明进而取代人类等等。”

在使用计算机的过程中，判断新下载的文件或软件是否含有恶意代码是最常见的安全情形。通常的识别方法是将程序的数字签名与已知的恶意软件进行对比，以辨别安全与否。

这种基本的识别手段有其缺点：它依赖于恶意软件数字特征库的不断随时更新来保证识别能力。一旦更新落后或识别不及时，后果令人堪忧。一些特征不明显的恶意软件经常可以轻易蒙混过关。

一家名为Deep Instinct的新创企试图使用深度学习技术来弥补此中不足。公司团队利用近10亿个已知恶意软件样本对其深度学习系统进行训练。

公司CTO Eli David 说：“深度学习改变了很多领域。计算机视觉每年增长20%～30%，此外还有语音识别。于是我们想为什么深度学习不能应用到网络安全领域呢？”

他认为基于概率大机器学习系统十分有限，尽管非常多的因素可以被识别和评估，与此同时那些太过微小的因子遭到忽略。

“如此你白白丢掉了绝大一部分数据。”他说。

作为纠正，Deep Instinct 实验室中无一遗漏地使用目前已知的所有恶意软件样本来训练其深度学习系统。整个过程耗时一整天。而且使用到高性能图形处理器来进行对数据的分析。

训练产生的系统大小约有一千兆字节，随后公司将至精简至二十兆字节。如此该系统可以被安装到任何端点设备上，包括移动设备。即使在最慢的机器上，它也能在几毫秒内完成对未知程序安全性的识别。

“检测一兆的数据耗时不过一毫秒。” David 说。“我们在实验室中包办了所有复杂的准备工作，用户的使用成本非常简便。”

Deep Instinct 每三到四个月更新一次恶意软件样本库，新的更新随即会被部署到正在运行的设备上。David 称，深度学习非常适合应对捉摸不定的变化。即使样本库更新延迟，该系统仍然有能力检测新的文件。

每天不断出现的新型恶意软件大多都是在旧有恶意软件上做细小改变。“即使是最有威胁性的新恶意软件，其80%仍然是旧的。传统检测方法对这些乔装素手无策，但深度学习能够很容易地检测它们。”

David 称其公司正在同独立的测试实验室合作量化系统的检测能力。早期同财富500强客户的测试显示，该系统检测成功率比现有解决方案高出20%～30%。

“最近我们在美国一家大银行做了100,000个文件的对比检测。现有的解决方案在测试的当天早上更新了样本库，而我们的样本库数据还是两个月以前的。尽如此，我们的检测成功率达到了99.9%，而对方只有40%。”

找出原因

最新的深度学习系统受人指责地一点是，它常常能给出结果，但却不一定能够解释该结果究竟如何产生。

对此，大数据分析服务公司 Nutonian 使用名叫 Eureqa 的 AI 引擎来尝试解释结果产生的过程。

公司创始人和 CTO Michael Schmidt 表示， Eureqa 能像牛顿发现物理学中的万有引力一样，用最优雅最简单的方式来阐述事情原委及其中关系。

公司将 Eureqa 免费提供给研究人员使用，它已经间接帮助后者在超过500本杂志出版物中发表研究成果。在医学应用中，它可以帮助诊断诸如黄斑变性和阑尾炎之类的疾病。该引擎在网络安全领域也有助益。网络安全中，最重要的便是识别攻击的类型和手段，而 Eureqa 能够自动完成这个类型检测。

客户将数据上传到云端，服务器在一个小时之后就会传回结果。“我们现已能够在几分钟内重现过去需要几个月甚至几年才能完成的结果。”Schmidt 说。

本地与全局相结合

网络安全形势瞬息万变，及时的更新对任何类型的机器学习系统来说都至关重要。

如果没有更新，再先进的系统也会过时。人们总不断弄出新的东西：员工打造新产品，供应商推出新程序，消费者购买新商品。当然，黑客也会不断编写出新的恶意软件来绕过现有的检测手段。

在下一次更新之前，总有漏洞存在。

别有企图的程序员常常使用安全软件来操练他们的攻击手段，一旦找到有效的漏洞，那么这些安全软件就变的形同虚设。糟糕的情况直到封堵该漏洞的更新出现才会结束。

“你可以使用本地模式（local patterns）、同行模式（peer patterns）和行业模式（industry-wide patterns），以不同的更新速度更新它们。”管理网络公司 Masergy Communications 的首席科学家 Mike Stute 说。

Masergy 使用一定数量的全局检测来寻找发生可疑事件的可能性，然后将其与本地指标相结合。全局系统只能检测到有限的数据，科学家们至着眼于最常见的特征。

额外的局部焦点允许更多的输入。Stute 称：“在本地模型中，我们不必将它们压缩到更小的功能集。”如此一来兼顾唯一性和准确性。

本地与全局相结合的策略也为企业咨询公司 Acuity Solutions 所使用，其 BluVector 便使用机器学习来检测网络威胁。BluVector 习得正常程序应有的样子，善于从恶意程序与正常程序的代码差别中发现潜在威胁。

而且 BluVector 还会从新情况中学习，不断升级自身的鉴别能力。其主引擎与全球数据每季度同步一次，但不会涉嫌上传客户信息。

全局与本地的有机结合使得每个客户的 BluVector 部署都略有不同。即使攻击者找出了系统的漏洞，该攻击手段也未必对定制化之后的系统有效。

“这是一种移动防御策略，这些技术深度定制于你的环境而无法逆向破解。”Acuity 首席执行官Kris Lovejoy 说。

来源：网易科技