AI驱动安全,10年前就曾经是一个热门话题;23年在LLM的推动下,又重新掀起了一番热潮。 回望过往,国内网安行业曾经在AI技术上全球领先,而如今我们看到确实另一个景象,就如CrowdStrike凭借AI能力构建的终端防御能力已经全方位超越传统安全技术,彼此之间已经是质的差别。
当前LLM的浪潮,对于安全企业是机会也是陷阱。抓住机会就能够脱颖而出,掉入陷阱就不仅浪费了资源,也是浪费了时间。结合过往的经历以及当下领先公司的现状,发现有两类问题是投入AI技术方向是最容易出问题的地方:
下面就以Crowdstrike为例展开谈谈对这两个问题的理解。
即使不考虑当前大火的LLM,AI在网络安全中的应用场景已经非常广泛,可以说在网络安全中的任何一个环节,都可以利用AI来尝试解决问题。下图就是整合不同厂商、安全机构形成的一个比较全的全景图画:
也就是说AI在网络安全中的应用场景,至少可以达到数十种之多。 数目虽然众多,但是每个场景本身的价值不同、场景中已有技术存在的问题不同、AI可以解决的问题的程度也是不同的,需要基于这三个因素来衡量哪些是值得优先投入的。
于很多人的直觉相反,Crowdstrike选择的关键场景不是EDR、而是AV,也就是一般说的恶意软件防御。从当前看到的公开资料,可以认为CrowdStrike在AI领域的绝大多数投资以及技术进展,均来自于恶意软件防御领域。下面从三个因素出发看看它为何会做这样的选择:
CrowdStrike正是因为做好了基于AI模型的恶意软件防御,才能在大客户市场和微软这样捆绑销售的高手较量并且胜出,同样可以在中小客户市场去替代Mcafee、赛门铁克、趋势等传统AV市场的龙头。
大方向的正确是成功的前提,但还远远不够。对于CrowdStrike而言,如何在AI技术的驱动下,真正取得远超传统AV厂商的安全效果是一个更大的挑战。网络安全中对AI有一定了解的人都知道,使用AI的方法存在多种挑战需要解决,误报率、漏报率和可解释性是其中最关键的部分。
漏报/误报问题
从本质上讲,误报和漏报是一体的,在没有足够多维度信息做充分条件判断时,就需要在误报和漏报中间寻找平衡点;另一个问题在于攻击者往往会发明新的攻击技战术方法,客户的业务环境也可能随着数字化进展而不断变化,这也会造成检测能力上的挑战。Crowdstrike使用了数种方法来应对挑战:
Crowdstrike 通过静态+行为+上下文方式引入更多的分析维度;通过必要的人工运营介入保障少量、高质量的训练数据;并且通过威胁狩猎等专家手段不断发现模型的不足之处,使其在AI对抗恶意软件方向上遥遥领先于其他厂商。其公司总结其经验称——CrowdStrike的重点不只是精选数据及训练最佳模型,而是创建收集数据并生成高质量模型的流程,并以自动化方式执行此操作 。
可解释性
可解释性上Crowdstrike的做法曾经被多次分析过,它融合了几种不同的解释方法,以满足各种检出情况、各种相关人员的需要:
通过整合这三种可解释性信息,其NGAV在可解释性上不但不弱于传统基于规则的AV厂商,而是极大程度的超出了。
综上,CrowdStrike的成功更多是其从系统的角度去看待AI技术,而不是单独依赖AI做一个功能模块,也没有将AI模型开发等同与传统的软件功能开发。它更重视通过多种技术的融合达到更好的安全效果,更注重整体能力运营流程的搭建以及自动化,而这些是很多厂商容易忽视的地方。
上面的认识都是基于传统AI技术的应用形成的,并不涉及LLM领域。在过去一年中,已经看到LLM在很多ToB应用上也取得了明显的进展:
网络安全中LLM注定也要发挥重要作用,但当前的进展看似都还不明显。也许2024年能够看到更多。其中关键的场景会在哪里——代码理解能力带来的恶意脚本分析能力?交互形式改变带来的培训、使用成本降低?亦或是数据总结/标记能力带来的更自动化的数据分类分级…….
但无论如何,它应该是一个普遍场景下的关键难点,同时详细在具体解决问题我们依赖的也不仅仅是大模型技术本身。让后续的发展来验证这两个关键点是否还依然有效吧。
来源:ZenMind