随着数据和AI技能在许多组织普及开来,各种信息数据需要更广泛地共享,实现其价值的最大化利用。但这些数据中包含了很多个人隐私信息,需要在数据使用过程中得到有效的保护。智能产品和服务正面临功能与隐私之间的取舍,这种取舍表现为“我们能从事数据科学的利用,也可以有效保护数据隐私,但两者无法兼得”。
目前,行业监管部门对个人隐私保护的要求非常严格,如果组织不能有效保护用户的隐私数据,会面临后果严重的合规处罚。因此,组织需要在保护用户隐私的前提下,使用个人数据来构建智能产品。
新一代隐私保护技术盘点
在AI时代,确保个人隐私安全尤为重要也更加困难,因为借助当今的高速计算能力,连匿名化数据集都可以进行逆向工程处理,从而识别个人身份,并推测其隐私活动信息。传统的数据保护措施难以满足隐私保护要求,组织需要尽快了解并应用新一代隐私保护技术来保护智能化应用的安全开展。
•联邦学习:该技术允许AI模型用保存在许多不同设备或服务器上的数据进行训练。因此,无需从单一设备获取数据或对数据进行复制,模型就能开展学习。这可以被视为“共享模型,而不是共享数据”,创建一个从本地数据学习的全局模型。
•安全多方计算:该技术主要能够实现不同使用者能够处理他们不想彼此共享的数据。它可以让一组授权同意的使用者之间共享加密数据,并允许他们处理由所有方的个人数据组成的数据集,确不用访问数据所有者的原始数据。
•同态加密:该技术允许数据在加密后进行处理利用。比如说,可以从可穿戴设备数据集找到关于关节炎患者的数据,对其进行运算处理,基于群组级洞察力来创建实用模型,根本不需要解密个人记录。同态加密越来越受欢迎,研究人员希望有一天可以针对加密后的数据执行几乎所有的应用计算。
•可信执行环境:这是一种硬件特性的隐私保护技术,可在计算设备上创建安全区,能够单独执行某些批准的功能。智能手机使用这种环境可以进行用户生物特征身份验证,也可以创建可信执行环境,以便在个人数据上运行AI模型,但是使用者确无法拿走该数据。
•差分隐私:即使建模者看不到原始数据,不法分子仍有可能对模型的输出进行逆向工程处理以窥视个人身份。差分隐私有助于应对这个问题,还有助于保持匿名性。它为数据添加随机的干扰信息,这会破坏数据点,但保留整个数据集的属性。由于建模者知道这种随机性,他们仍可以构建准确的的群组级模型,能可靠地预测。但是任何窃取数据的人不知道任何个人数据记录是否准确。
隐私保护技术的应用
以上这些技术不仅仅是学术概念,它们已经在实际工作中得到切实运用。MELLODDY是一个由多家生命科学公司组成的行业联盟,这些公司正在使用联合学习来共享药物发现数据。而最新的美国人口普查数据发布时,则采用了差分隐私技术,以确保个人无法被识别身份,同时提供了汇总的人口数据。联合国PETS(隐私增强技术)实验室正在测试一系列上述技术,旨在让国家统计局、研究人员和公司企业能够协作处理共享数据。
不过,在AI时代开展隐私保护工作并不容易,隐私保护技术的应用也面临很多挑战。例如同态加密等技术是计算密集型技术,对组织的计算能力有较高要求,而差分隐私在隐藏原始真实数据过程中,其准确性在一些特定场景下会难以保证。
没有哪一种技术是万能的!组织在开展隐私保护工作中需要综合考虑这些新技术的特点,并结合实际使用场景,探索真正适合的隐私保护解决方案。
而且与所有数据项目一样,好的隐私保护模型也同样需要充分的底层数据支撑,隐私保护技术若要发挥实效,数据所有者需要采取良好的数据管理方法。由于一些建模者无法看到原始数据,对数据进行筛选以便处理匿名查询显得尤为重要。
最后,隐私保护技术不应该是事后添加的,而应该在业务系统开发过程中同步考虑。任何需要共享个人数据的程序都应该采取隐私保护优先的做法,先要考虑产品背后数据对隐私带来的影响,并从一开始就添加合适的工具,这样组织才能在保护用户隐私的同时,获得所需的洞察力。
稳定可靠的隐私保护技术措施有助于说服客户共享数据,并合理兼顾尊重隐私和数据使用间的平衡。更广泛、更深入、更具代表性的数据使组织能够构建更准确、更通用、更实用的模型,从而支持智能化个性化的产品和服务。这么做非常重要,但也意味着必须保护和尊重与组织共享数据的用户隐私安全。
参考链接