在过去的一年里,我对人工智能的迅猛发展和创新感到非常惊叹。随着对人工智能和机器学习模型的采用持续增加,“数据是新石油”的传统说法终于需要更新了。在2023年这个以人工智能为核心的世界中,“数据和模型是新石油”似乎更具前瞻性。
作为从事安全工作多年的人,我深知任何伟大的技术都可能被用于造成伤害(例如社交媒体、互联网)。本文并非要阻止创新本身,也不是一种无害的进步预言者,而是要在考虑安全的基础上思考安全行业将如何发展以及机器学习安全在未来十年甚至更长时间的重要性。为此,我在过去几个月中与领域内的建设者、购买者和普通从业人员进行了广泛的交流,很高兴能与大家分享我的学习成果。
当前态势和新漏洞可能
机器学习安全,或称为ML安全,旨在保护机器学习模型、数据集以及整体工作流程的完整性、机密性和可用性。传统的网络安全措施通常着重于保护网络和应用程序,而ML安全则主动保护驱动机器学习系统的复杂算法和模型。
随着我们深入进行地壳运动般的人工智能转变,对强大的ML安全措施的需求变得更加迫切。数据泄露和网络攻击的增多,再加上企业中开源软件(OSS)模型的采用,造成了潜在漏洞的完美风暴。攻击者越来越频繁地针对机器学习模型进行攻击,以操纵输出、破坏功能或获取敏感信息。
当前企业面临的一些关键漏洞包括:
机器学习模型变得更加复杂和不透明。深度学习模型可以包含数百万个参数和层次,使得理解其内部运作和漏洞变得困难。一些漏洞正在变得常见,但在未来的十年中,我们仍将面临新的攻击途径。
新兴的趋势
机器学习并不是新的技术,但从这个角度来看,我们正在进入一个关键的十年,关于机器学习的实践和供应链本身的安全保护方面。我认为,行业尤其是保护该领域的重要性,还得到了三个关键新兴趋势的支持,这些趋势突显了专注于保护机器学习供应链的重要性:
在这些趋势和其他一些因素的推动下,对于成熟和复杂的组织来说,机器学习安全将始终是头等大事。
在董事会层面上,最近一个常见的话题是,不管是在应用层还是基础架构层,你的公司有什么“AI”战略。对于许多企业来说,人工智能是头等大事。我注意到,更多技术实力强大的公司正在采用开源模型,将“AI化”的组件化部分纳入其产品中。
然而,这也是一个双刃剑,开源模型的采用更具前瞻性,因为企业从客户那里收集的数据很可能(也应该)不能离开他们的环境,无论是出于监管担忧、合规要求还是纯粹的安全监管。因此,结合开源模型的采用,确保数据/模型不离开您的环境,以及少数复杂企业的需求,机器学习安全公司在这方面有很大的发展机遇。
部署方式
在考虑机器学习安全的部署方法时,从大多数企业的角度出发,从机器学习的工作流程开始是至关重要的。请原谅我并非机器学习专家,因此以下是非常简化的工作流程。有许多工具和方法可用于保护机器学习供应链。我将机器学习安全的安全态势分为四个明确的类别:
安全产品套件和复杂性
考虑到上面提到的机器学习安全方法,值得注意的是安全产品的类型和使用场景可能存在重叠。在行业中,安全产品往往会有重叠,无论是端点安全、身份和访问管理(IAM)还是漏洞管理,机器学习安全也不例外。机器学习安全与多个不同的安全类别有重叠,涵盖了从身份验证到端点保护等多个方面的安全。与安全领域的情况相似,该领域的工具应该与CISO使用的整个产品套件相辅相成。如果您是一个新公司,在销售安全产品时应考虑所面向的安全复杂性类型,通常他们会使用2-3个供应商的产品,而产品套件之间可能存在重叠。机器学习安全跨越了多个产品套件,并被视为买方的增值购买。
根据专家访谈,机器学习安全在“最佳实践”和“最先进”的安全组织中是必需的。这些组织通常会优化安全冗余,选择一到两种最佳工具。他们的安全预算通常接近5,000万美元甚至更高。如果您是一家机器学习安全公司,我强烈建议您专注于成熟企业,这些企业完全符合这些特征。此外,内部和客户数据团队(如机器学习、数据、DevOps团队)的水平可能达到局部最大值,他们对机器学习安全的关注程度非常高,确保其安全至关重要。经过与几位CISO和买家的交谈,我了解到,在能够在客户环境(如VPC)中部署产品的架构非常关键。
相关行业
可以说,尽管机器学习安全领域还处于初期阶段,但它与一些行业密切相关,涵盖了从科技到工业的一系列行业。我将这些行业分为三个分类:安全成熟度(如网络安全成熟度细分)、数据科学的复杂性,以及内部采用开源模型的可能性。虽然这只是一个初步了解哪些行业最需要机器学习安全的简单方法,但它为了解哪些行业更容易受到攻击,从而更有可能购买新兴竞争对手的产品奠定了基础。毫不奇怪,“科技”行业似乎是一个相关的目标,因为他们具备先进的技术能力,并有可能采用开源模型。另外两个相关的行业是金融软件行业——考虑到其涉及到的客户数据和为消费者相关产品运行实时模型所需的高级技术。最后一个相关行业是保险业。鉴于保险业的特性,其业绩与模型本身紧密相关,攻击者充分意识到模型的重要性以及输入数据对输出结果的巨大影响。
当前市场现状
当前市场仍然相对初级;针对目前的供应商,我将它们分为三个新兴类别:
现有供应商(如Amazon Sagemaker、Google AI):
ML/AI可观测性(如Arize、Arthur、Fiddler):
新兴竞争者(如Robust Intelligence、HiddenLayer、Protect.ai):
更进一步,细致的论点
在与几位专家和CISO(首席信息安全官)进行交流后,我们可以得出结论:机器学习安全将成为少数几家企业关注的焦点,主要集中在一小部分行业中。目前尚不清楚获胜的组合将会是什么样的,但毫无疑问,安全领域即将发生重大变革。因此,在结束时,我将为您列出一些市场相关的细节和对于该领域的综述:
• 随着数据在数据仓库和协作层之间的持续增加,能够以零信任的方式(对数据、协作者和模型进行隔离)来处理价值链的每个部分的供应商将在市场上受到青睐。
• 解决方案必须针对复杂的组织,并采用自上而下的市场推广方法。
• 理想的供应商必须愿意制定MSSP(托管安全服务提供商)方法,考虑到行业的细微差别以及MSSP在满足大型组织安全需求方面所赢得的信任。
• 理想的解决方案应该以架构方式部署到客户环境中(例如VPC),并能够在多个云环境中扩展。
• 针对复杂的企业,理想的提供商需要专注于训练数据、验证和部署数据层,而较大型企业则不太愿意采用一揽子解决方案。
• 理想的提供商将希望能够实现平均及以上的SaaS ACV(年度合同价值),就像一些市场领导者和企业在支付/增加新工具方面的倾向所示。
• 开放源代码(OSS)模型的可防御性将至关重要;考虑到OSS的快速发展性质,理想的提供商将希望早日建立一个安全研究机构,以应对新的攻击方式。
• 初期的突破点应集中在“最佳实践”和“最先进”的网络安全成熟度领域。
作者:Zain Rizavi@Ridge Ventures
相关链接:https://indiscretemusings.substack.com/p/fortifying-the-future-safeguarding
来源:安全喵喵站