2023年11月6日,西班牙数据保护机构AEPD探讨了合成数据如何在人工智能模型训练中取代个人数据的问题,认为当所需要的大量个人数据不可用或不容易收集时,合成数据可以作为替代品。
数据需求量日益增大。当前,人工智能模型需要大量数据进行开发、测试和验证,执行此类过程所需的数据量是不可预估,且在某些情况下,需要通过专门测试数据来验证和描述异常情况、极端情况、低概率或未记录情况的系统,甚至通过操纵数据测试攻击类型。
合成数据是非真实数据。合成数据是人工生成的数据,与从现实中收集的真实数据形成鲜明对比,但同样可以保留特定场景下真实数据的特征和属性。合成数据可用于机器学习服务的开发、测试和验证,在这些服务中,无法获得所需数量的真实数据,甚至可能不存在此类真实数据。合成数据可以允许公司以一种在数据空间框架内共享数据而不泄露商业机密的方式一样进行使用,可以用于创建具有与个人数据集相同效用的非个人数据集,在这种情况下可以被当作一种隐私技术。
合成数据越来越受到关注。合成数据可以通过允许方问来自公共和私人实体的信息(即数据空间)支撑数据经济。但是,如果对此类数据的处理目的、实际限制、相关风险没有得到足够保证时,相关实体将不愿意披露可能泄露商业秘密、自身情况、知识产权的数据。而生成合成数据将成为可以解决此类问题的主要技术之一。合成数据有助于开发、测试和验证自然语言理解系统、视觉算法系统、自动驾驶汽车系统和面向金融机构的欺诈检测模型,因此,近年来越来越受到关注。
合成数据不是随机数据。从真实数据合成数据集,或创建新数据集时,应当再现真实数据的结构和特征,从而在特定场景中得出相关结论。由于合成数据属于人工生成的数据,至少可以对一个特定目的具有意义,在此背景下,合成数据的最基本形式可能类似真实数据格式的虚拟文件。
合成数据可以取代真实数据。每个特定场景对数据具有不同的质量水平要求,对于流程和最终使用目的也具有差别细微的不同要求,在某些特定场景下,合成数据可以取代真实数据。例如,为了验证人脸识别系统,可以生成一个合成人脸数据集,以检查这一系统的局限性。但是,需要注意的是,这样的数据集可能缺乏检查其他类型系统或开发新的人脸系统所需的数据质量。
合成数据可以作为PET使用。由于合成数据可以最大限度的减少对个人数据的处理,同时实现相关目标,且结论与使用原始个人数据所获得的结论一样,因此,与其他许多技术一样,合成数据也可以作为一种隐私增强技术(PET)使用。在GDPR框架下,即使是从真实的个人数据中生成,合成数据也不应包含可识别个人的信息。合成数据出于特定目的保留了真实个人数据的统计属性,因此可以防止个人数据被处理。但根据GDPR,从真实的个人数据创建合成数据本身就是一种处理活动,所以应当考虑GDPR的相关规定。
来源:CAICT互联网法律研究中心