借助同态加密和联邦学习,各团队能在共享数据与分析的同时保护实际信息。

12月初的线上英特尔研究院开放日活动上,该公司两名研究人员表示:采用同态加密与联邦学习技术,公司企业和研究人员能在不暴露实际数据的情况下,协同分析数据和创建机器学习模型,有效避免数据泄露风险。

协作团队可使用联邦学习创建通用机器学习模型,以自身内部数据加以训练,再安全收集并组合这些分散的模型,建立起融合各参与方数据的更为精确的迭代。同态加密更加通用,是密码学特殊领域的成果,专注加密状态下的数据计算,例如加密数据搜索和机器学习算法训练。同态加密可以在切实保护隐私的同时维持信息的可用性。

英特尔已加倍投注这两种技术,在其硬件中以软件保护扩展(SGX)提供支持。英特尔安全情报团队首席工程师Jason Martin称,这样可降低同态加密与联邦学习技术的应用成本。

他表示:“未处理的数据是无用数据。我们将不断增长的庞大数据转化为有用数据的主要工具是机器学习和统计技术,但公司企业因安全和隐私问题而对数据共享顾虑重重。

今年的英特尔研究院开放日活动上,英特尔加密数据计算首席工程师Martin和Rosario Cammarota披露了该公司对这方面技术的研究与规划。

安全共享与分析数据已成为重要研究问题。今年,麻省理工学院一支多学科研究团队创建了采用隐私保护加密的系统,公司企业可利用此系统在不披露实际数据的情况下共享安全事件信息。虽然某些公司,例如Duality和Enveil,专注特定于安全的同态加密应用,英特尔却希望通过在其芯片上提供支持,来拓宽同态加密的可能性。

Cammarota称:“现在这个时候,我们所知的很多进展都需要满足应用科学,我们在这方面探索的意义正在于此。业界需要出现更多的理论进展和标准化,而英特尔正参与其中。”

联邦学习和同态加密这样的技术,可使公司企业能够在保持自身数据控制权的同时通力协作。

联合数据可以解决两个问题:其一是限制数据使用的数据割裂问题。这个问题之所以产生,是因为出于隐私顾虑、知识产权考虑或监管体制担忧而无法传输信息。另一个更为实际的问题是数据集的体量。带宽限制束缚了公司企业直接共享大量数据集的脚步,导致无法集中训练机器学习模型。

医疗健康和金融服务行业寄希望于借助联邦学习在不违反隐私规定或泄露敏感信息的情况下协作。为了能够运用各个独立数据集识别脑部肿瘤,宾夕法尼亚大学采用联邦学习训练机器学习模型。该联邦学习方法最终训练出了性能提升17%的机器学习模型。

Martin称:“联邦学习方法中,我们将计算任务打散分发到各个独立数据集,每家医院都有自己的基础设施。一部分训练在各个独立数据集处执行,然后这些分散的模型被推送到聚合服务器,由聚合器将各个模型组合成经更新的全局模型。”

采用同态加密就可以直接对密文执行数据分析,无需先解密数据。该技术呈现了无需实际暴露数据就能分析的美好前景。

但前途是光明的,道路是曲折的。同态加密会导致数据体量暴涨,密文体积会比原始数据大上100到1000倍。计算复杂度也显著上升,能升至1万到100万倍,导致即使是很简单的功能,实际实现成本也很高昂。

不过,Cammarota提醒道,业界此前其实也应对过此类挑战。1960年,一个晶体管就要1到4美元(相当于现在的8到30美元)。时至今日,晶体管价格下降到不足原先的十亿分之一。

如果同态加密实现的成本能降下来,预期未来也会出现类似的应用普及潮。

Cammarota表示:“晶体管技术一开始扩展,晶体管价格一变为白菜价,前所未见的应用就成为了现实。只要同态加密实现成本降低,我们将见证该技术的无限可能。”

来源:数世咨询