2016年,图灵奖得主Yann LeCun 表示,机器学习技术在未来的核心挑战就是要实现从没有标签、未经人工处理的原始数据中学习知识,即无监督学习(unsupervised learning)。他认为,无监督学习一定是人工智能发展的未来。
经过多年发展,无监督学习技术的实际应用能力备受业界关注,目前已在自然语言处理、视觉图像学习等领域获得较大突破。而随着新型网络威胁、攻击与日俱增,安全研究机构也开始尝试利用无监督学习技术来应对挑战,特别是层出不穷的未知威胁挑战。
无监督学习的价值
无监督学习技术属于机器学习的一种类型,但与传统机器学习模式不同的是,无监督学习几乎不需要对算法模型进行人工干预的“训练”。乍一看,这一方法可能不合常理,因为通常企业的思维方式是:机器学习模型只有通过反复大量的训练才能够实现对潜在网络攻击的有效识别和发现;但现实情况是:因为企业安全团队在构建机器学习模型时并不能将所有可能的攻击方法都考虑全面,因此,通过传统模式训练构建的机器学习模型在应对未知威胁时作用有限,难以真正体现出智能化的价值。
而无监督机器学习并不直接应用于基于规则设定的安全回归模型,因为它无需知道输出值可能是什么,因此不会像传统机器学习模型那样进行训练。可以这样理解:当我们在学校参加考试时,会有问题和标准答案;考试的成绩取决于实际回答与标准答案的接近程度。但如果没有标准答案时,我们该如何给被考核者打分呢?
无监督学习方法正是通过聚类学习、特征映射、密度估计等评估流程和智能分析技术,特别是一些在人工模式学习下可能忽略的评估方式,来对那些存在隐患的威胁行为进行识别和分析,并提醒安全团队留意这些可能但还未被识别的网络威胁,这个过程无需通过真实的攻防演练或虚拟的攻击场景来实现,可以最大程度地实现自动化,降低人为因素干扰。
企业安全人员每天面临海量的报警信息,一些异常行为很难被发现或很容易被忽略,通过无监督学习方法可以更合理地利用资源,提升效率。而且无监督学习方法可以作为一种预防措施来避免网络攻击,能够帮助安全团队更加主动地预防威胁、实时响应。
无监督学习的应用实施
作为一种应用并不广泛和成熟的新兴技术,无监督学习在企业实际网络威胁检测场景下的应用时,将会面临很多的挑战和困难。经过研究机构的尝试和验证,以下几个步骤被认为可以帮助企业更好地实施无监督机器学习模型:
01
明确无监督学习的应用场景
并非所有的网络安全工作流程都适合无监督学习模型。比如,无监督学习的机器学习模型在数据泄漏防护方面作用可能并不大,但在帮助安全人员发现未知网络攻击企图的早期迹象时却大有用处。企业应仔细审查当前的网络安全策略和流程,确定可以在哪些环节使用和实施无监督学习的模型,且不影响网络安全团队的工作。
02
为无监督学习方法建立成功落地的基准
在让无监督学习模型运行起来之前,先要确定一些基准。这将帮助企业和安全团队了解无监督学习模型的功能和价值,从而清楚认知无监督机器学习模型是为了提升安全防护而不是给企业增添额外的工作。
此外,企业需要创建一套流程来核查无监督模型,确保模型能够正确对数据进行分析,当安全团队能够准确掌握无监督学习方法实施后的成果与问题时,就能够根据需求对其进行适当调整。
03
及时做好应用效果监控和报告
无监督学习方法的机器模型经过对网络威胁和检测网络攻击的训练后,对安全风险监测报告的处理就是保证企业网络安全的下一个关键步骤。
无监督学习方法虽然对未知威胁风险监测很有价值,但仍然难以避免数据错误分析并误报的可能。使用无监督学习方法训练的人工智能模型,需要对海量未经处理的原始数据进行准确分类和聚类处理,因此必须要建立一个检测流程来纠正过程中可能发生的错误。
当人工智能模型将企业内部的安全防护模块妥善的串联在一起之后,人工的监控依旧不能松懈,因为通过人类的智慧对网络安全风险进行判断把关,依旧是网络安全防护的最重要组成部分,这是人工智能无法替代的。
参考链接
https://dzone.com/articles/using-unsupervised-learning-to-combat-cyber-threat