危机四伏,如何打响机器学习保卫战?

在过去的一年里,我对人工智能的迅猛发展和创新感到非常惊叹。随着对人工智能和机器学习模型的采用持续增加,“数据是新石油”的传统说法终于需要更新了。在2023年这个以人工智能为核心的世界中,“数据和模型是新石油”似乎更具前瞻性。

作为从事安全工作多年的人,我深知任何伟大的技术都可能被用于造成伤害(例如社交媒体、互联网)。本文并非要阻止创新本身,也不是一种无害的进步预言者,而是要在考虑安全的基础上思考安全行业将如何发展以及机器学习安全在未来十年甚至更长时间的重要性。为此,我在过去几个月中与领域内的建设者、购买者和普通从业人员进行了广泛的交流,很高兴能与大家分享我的学习成果。

当前态势和新漏洞可能

机器学习安全,或称为ML安全,旨在保护机器学习模型、数据集以及整体工作流程的完整性、机密性和可用性。传统的网络安全措施通常着重于保护网络和应用程序,而ML安全则主动保护驱动机器学习系统的复杂算法和模型。

随着我们深入进行地壳运动般的人工智能转变,对强大的ML安全措施的需求变得更加迫切。数据泄露和网络攻击的增多,再加上企业中开源软件(OSS)模型的采用,造成了潜在漏洞的完美风暴。攻击者越来越频繁地针对机器学习模型进行攻击,以操纵输出、破坏功能或获取敏感信息。

当前企业面临的一些关键漏洞包括:

  • 对现有模型的对抗性追踪
  • 模型盗窃和劫持
  • 无法在内部进行大规模的防护策略供应(例如零信任控制)
  • 嵌入在采用OSS模型中的勒索软件
  • 在模型生命周期(生产前/生产后)中保持模型的完整性

机器学习模型变得更加复杂和不透明。深度学习模型可以包含数百万个参数和层次,使得理解其内部运作和漏洞变得困难。一些漏洞正在变得常见,但在未来的十年中,我们仍将面临新的攻击途径。

新兴的趋势

机器学习并不是新的技术,但从这个角度来看,我们正在进入一个关键的十年,关于机器学习的实践和供应链本身的安全保护方面。我认为,行业尤其是保护该领域的重要性,还得到了三个关键新兴趋势的支持,这些趋势突显了专注于保护机器学习供应链的重要性:

  • 人工智能攻击的增加:所有人工智能网络攻击中,有30%利用了趋势性数据污染、人工智能模型盗窃和附加在人工智能核心上的对抗性样本。
  • 数据扩张:如今,企业每天都在产生海量的数据,移动平台和远程办公等平台转变是其主要原因,企业负责收集客户数据,并更重要的是保护这些数据的安全。
  • 责任分摊的混乱:机器学习涉及到多个团队,包括商业智能、数据科学团队、机器学习工程师、IT、安全等等。类似于由大规模技术扩展者引领的共享责任模型,越来越多的公司难以承担起对模型的责任,从而使自己暴露于恶意攻击之下。

在这些趋势和其他一些因素的推动下,对于成熟和复杂的组织来说,机器学习安全将始终是头等大事。

在董事会层面上,最近一个常见的话题是,不管是在应用层还是基础架构层,你的公司有什么“AI”战略。对于许多企业来说,人工智能是头等大事。我注意到,更多技术实力强大的公司正在采用开源模型,将“AI化”的组件化部分纳入其产品中。

然而,这也是一个双刃剑,开源模型的采用更具前瞻性,因为企业从客户那里收集的数据很可能(也应该)不能离开他们的环境,无论是出于监管担忧、合规要求还是纯粹的安全监管。因此,结合开源模型的采用,确保数据/模型不离开您的环境,以及少数复杂企业的需求,机器学习安全公司在这方面有很大的发展机遇。

部署方式

在考虑机器学习安全的部署方法时,从大多数企业的角度出发,从机器学习的工作流程开始是至关重要的。请原谅我并非机器学习专家,因此以下是非常简化的工作流程。有许多工具和方法可用于保护机器学习供应链。我将机器学习安全的安全态势分为四个明确的类别:

  • 数据准备 – 合成数据提供商:合成数据提供商是专门生成合成或人工创建数据以模拟真实数据并保持隐私和匿名性的公司或服务。以下是使用案例和示例:
  • 数据生成:合成数据提供商开发算法和方法来生成合成数据。他们的目标是创建与真实数据的统计特性和模式非常相似的数据,包括生成数据点、建立变量之间的关系和复制目标数据的特征。
  • 隐私保护:合成数据的一个重要优势是保护原始数据集中个人的隐私和机密性。合成数据提供商采用数据匿名化、去标识化和差分隐私等方法,确保个人信息无法与特定个体关联起来。
  • 数据定制化:合成数据提供商允许用户在生成的数据中指定所需的特征和属性。这种定制化可以包括定义变量的分布、确定属性之间的关联性以及控制数据集的整体结构。用户可以根据自身需求和研究要求来定制合成数据。
  • 真实数据表现:合成数据提供商致力于创建能够准确反映目标领域真实场景和挑战的数据。这涉及捕捉原始数据中的复杂性、模式和异常情况,使用户能够进行有意义的分析和测试。
  • 可扩展性和多样性:合成数据提供商通常提供可扩展的解决方案,可以生成大量数据以满足不同用例的需求。他们能够创建具有各种场景、异常值和边缘情况的多样化数据集,全面代表目标领域。
  • 验证和评估:合成数据提供商可能提供工具和技术来评估生成的合成数据的质量和有效性。这可能涉及统计分析、可视化和与原始数据集的比较,以确保合成数据准确捕捉到实际数据的特征。
  • 集成和部署:一旦生成了合成数据,提供商可能会协助用户将其集成到现有的工作流程和系统中。他们可以提供API、数据格式或集成支持,以促进将合成数据无缝地整合到各种应用和平台中。
  • 模型的训练和验证 – AI防火墙:
  • 行为分析:AI防火墙从历史数据/模型中学习并建立用户、设备和应用程序的基准行为。然后它们可以检测与预期模型模式的偏离,例如异常的网络流量、访问尝试或数据传输,这可能表明存在安全漏洞。
  • 零日威胁检测:零日漏洞是指在安全补丁或修复程序发布之前,黑客利用的先前未知的安全漏洞。AI防火墙可以分析网络行为并识别异常活动,这可能表明存在零日攻击,并提供早期警告和主动防御机制。考虑到开源软件(OSS)模型的兴起,零日检测变得至关重要。
  • 模型验证和部署 – 模型注入保护:
  • 对抗性攻击:对抗性攻击涉及操纵输入数据以误导或欺骗机器学习模型。这些攻击可以旨在绕过安全措施、导致错误分类或利用模型中的漏洞。模型注入保护有助于检测和缓解此类攻击。
  • 输入验证:模型注入保护涉及在机器学习模型用于推理或决策之前对输入数据进行验证和清理。这个过程确保输入符合预期的格式、范围或约束,降低注入恶意或未经授权内容的风险。
  • 数据完整性检查:模型注入保护可能包括验证模型本身的完整性和真实性的机制。这可以涉及使用密码技术、数字签名或校验和来确保模型自创建或部署以来没有被修改或篡改。
  • 模型验证:模型注入保护可以涉及对机器学习模型进行定期或连续监控,以确保其完整性。这可以包括验证模型的架构、参数和权重,以检测任何未经授权的更改或篡改。
  • 运行时异常检测:模型注入保护可能在运行时使用异常检测技术,以识别机器学习模型的异常行为或意外输出。这有助于检测潜在的模型注入攻击并触发适当的响应机制。
  • 访问控制和身份验证:模型注入保护可以涉及实施访问控制机制和身份验证协议,以防止未经授权的访问或修改模型。这包括保护托管模型的基础设施,控制模型更新的权限,并为授权用户实施强大的身份验证机制。
  • 模型监控 – AI/ML可观测性:
  • 监控和日志记录:AI/ML 可观测性公司提供监控和日志记录功能,用于跟踪AI/ML模型、基础设施和数据管道的行为和性能。它们收集和分析各种指标、日志和事件,以提供对系统健康状况、资源利用情况、数据质量和其他相关参数的可见性。
  • 性能和效率优化:这些公司帮助组织优化其AI/ML系统的性能和效率。它们提供工具和技术来识别瓶颈、低效和资源限制,使企业能够微调模型、提高训练和推理速度,并优化资源分配。
  • 数据质量和漂移监控:AI/ML可观测性公司专注于监控AI/ML管道中的数据质量和检测数据漂移。它们帮助组织识别缺失或不完整的数据、异常值、概念漂移或数据分布的变化,这些因素可能会影响模型性能。通过监控数据质量和漂移,企业可以采取纠正措施并保持模型准确性。
  • 异常检测和根本原因分析:这些公司提供异常检测功能,用于识别AI/ML系统中的异常行为或偏离。通过分析指标、日志和其他数据来源,企业可以识别和诊断问题,及时进行干预和根本原因分析,以解决问题并确保系统的可靠性。
  • 模型可解释性和可理解性:AI/ML可观测性公司提供工具和技术来增强模型的可解释性和可理解性。它们提供关于模型如何进行预测、特征重要性和模型决策过程的见解。这有助于组织理解和验证模型的行为,确保公平和透明,并遵守监管要求。
  • 警报和通知:AI/ML 可观测性公司提供警报和通知机制,及时向利益相关者通报系统问题、异常情况或与预期行为偏离的情况。这使得可以及时响应和采取措施,以减轻潜在问题或性能下降的影响。
  • 可视化和报告:这些公司提供可视化和报告功能,以用户友好和可操作的格式呈现 AI/ML 系统的指标、趋势和见解。可视化工具帮助利益相关者了解 AI/ML 模型的性能、行为和影响,并促进决策过程。
  • 集成和协作:AI/ML 可观测性公司确保与现有的 AI/ML 基础设施、数据管道和监控生态系统无缝集成。它们可能提供 API、集成和协作功能,以简化可观测性过程,并促进数据科学家、开发人员和运营团队之间的跨职能协作。

安全产品套件和复杂性

考虑到上面提到的机器学习安全方法,值得注意的是安全产品的类型和使用场景可能存在重叠。在行业中,安全产品往往会有重叠,无论是端点安全、身份和访问管理(IAM)还是漏洞管理,机器学习安全也不例外。机器学习安全与多个不同的安全类别有重叠,涵盖了从身份验证到端点保护等多个方面的安全。与安全领域的情况相似,该领域的工具应该与CISO使用的整个产品套件相辅相成。如果您是一个新公司,在销售安全产品时应考虑所面向的安全复杂性类型,通常他们会使用2-3个供应商的产品,而产品套件之间可能存在重叠。机器学习安全跨越了多个产品套件,并被视为买方的增值购买。

根据专家访谈,机器学习安全在“最佳实践”和“最先进”的安全组织中是必需的。这些组织通常会优化安全冗余,选择一到两种最佳工具。他们的安全预算通常接近5,000万美元甚至更高。如果您是一家机器学习安全公司,我强烈建议您专注于成熟企业,这些企业完全符合这些特征。此外,内部和客户数据团队(如机器学习、数据、DevOps团队)的水平可能达到局部最大值,他们对机器学习安全的关注程度非常高,确保其安全至关重要。经过与几位CISO和买家的交谈,我了解到,在能够在客户环境(如VPC)中部署产品的架构非常关键。

相关行业

可以说,尽管机器学习安全领域还处于初期阶段,但它与一些行业密切相关,涵盖了从科技到工业的一系列行业。我将这些行业分为三个分类:安全成熟度(如网络安全成熟度细分)、数据科学的复杂性,以及内部采用开源模型的可能性。虽然这只是一个初步了解哪些行业最需要机器学习安全的简单方法,但它为了解哪些行业更容易受到攻击,从而更有可能购买新兴竞争对手的产品奠定了基础。毫不奇怪,“科技”行业似乎是一个相关的目标,因为他们具备先进的技术能力,并有可能采用开源模型。另外两个相关的行业是金融软件行业——考虑到其涉及到的客户数据和为消费者相关产品运行实时模型所需的高级技术。最后一个相关行业是保险业。鉴于保险业的特性,其业绩与模型本身紧密相关,攻击者充分意识到模型的重要性以及输入数据对输出结果的巨大影响。

当前市场现状

当前市场仍然相对初级;针对目前的供应商,我将它们分为三个新兴类别:

现有供应商(如Amazon Sagemaker、Google AI):

  • 这些供应商以提供从数据仓储、安全性、训练到模型部署的完整端到端能力而闻名。
  • 针对“最先进”的安全性领域设计,同时具备必要的企业附属功能,如日志记录。

ML/AI可观测性(如Arize、Arthur、Fiddler):

  • 这些供应商以能够监测、排除故障和优化生产环境和预生产环境中的模型而闻名。
  • 其初始重点是内部和性能方面,以检查合规的人工智能(偏见)、数据探索、模型性能和漂移。
  • 较少关注安全性,因为安全性往往是一种从外部到内部的关注。

新兴竞争者(如Robust Intelligence、HiddenLayer、Protect.ai):

  • 能够保护模型免受对抗性攻击。
  • 在模型部署的全过程中实施人工智能防火墙和访问控制。
  • 能够检查来自流行的开源平台(如Hugging Face等)的模型有效性。
  • 实施模型验证程序以对机器学习模型进行持续监控,确保其完整性。

更进一步,细致的论点

在与几位专家和CISO(首席信息安全官)进行交流后,我们可以得出结论:机器学习安全将成为少数几家企业关注的焦点,主要集中在一小部分行业中。目前尚不清楚获胜的组合将会是什么样的,但毫无疑问,安全领域即将发生重大变革。因此,在结束时,我将为您列出一些市场相关的细节和对于该领域的综述:

• 随着数据在数据仓库和协作层之间的持续增加,能够以零信任的方式(对数据、协作者和模型进行隔离)来处理价值链的每个部分的供应商将在市场上受到青睐。

• 解决方案必须针对复杂的组织,并采用自上而下的市场推广方法。

• 理想的供应商必须愿意制定MSSP(托管安全服务提供商)方法,考虑到行业的细微差别以及MSSP在满足大型组织安全需求方面所赢得的信任。

• 理想的解决方案应该以架构方式部署到客户环境中(例如VPC),并能够在多个云环境中扩展。

• 针对复杂的企业,理想的提供商需要专注于训练数据、验证和部署数据层,而较大型企业则不太愿意采用一揽子解决方案。

• 理想的提供商将希望能够实现平均及以上的SaaS ACV(年度合同价值),就像一些市场领导者和企业在支付/增加新工具方面的倾向所示。

• 开放源代码(OSS)模型的可防御性将至关重要;考虑到OSS的快速发展性质,理想的提供商将希望早日建立一个安全研究机构,以应对新的攻击方式。

• 初期的突破点应集中在“最佳实践”和“最先进”的网络安全成熟度领域。

作者:Zain Rizavi@Ridge Ventures

相关链接:https://indiscretemusings.substack.com/p/fortifying-the-future-safeguarding

来源:安全喵喵站

上一篇:2023年勒索软件赎金或将创下历史新高

下一篇:网络安全分析师最爱的11款开源情报搜索引擎