Deepfake是指看起来或听起来像真的一样的虚假视频或音频。曾经,只有好莱坞特效工作室和情报机构才会制作虚假音视频,用于政治宣传。美国中央情报局(CIA)和英国政府通信总部(GCHQ)联合威胁研究情报组(JTRIG)就常这么干。如今,任何人都可以下载甚至制作Deepfake软件,仅仅用闲暇时间就可以制作出几乎假乱真的虚假视频。
截至目前,Deepfake尚仅限被业余爱好者用于把名人头像嫁接到色情明星的身体上,或者让政客“说”些恶搞的言论。然而,不可否认,同样基于简便的操作也可以用于创建虚假恐袭警报材料,或者用嫁接的性爱视频毁了情敌的婚礼,又或者,在投票开始前几天放出候选人之一的虚假音视频,打破势均力敌的竞选局面。想象空间可以很大……
Deepfake的巨大威力让很多人坐立不安,2016年美国总统大选佛罗里达州候选人,共和党参议员卢比奥,就曾将Deepfake与核武器相提并论。
过去,如果你想威胁美国,那你需要10艘航母、核武器,还有洲际导弹。现在,你只需要登录我们的互联网系统、银行系统、电网、基础设施网络,甚至,你只需要具备弄出一段可以以假乱真的虚假视频来搞乱我们的选举就行了。这就足以让我们的国家陷入巨大的内乱,深深削弱我们。
政客野心受挫后的故意夸大?还是说,Deepfake真的是比核武器还大的威胁?听卢比奥的语气,我们简直就要走向世界末日了。但并不是每个人都认同他的看法。
MIT媒体实验室和博克曼-克莱因中心AI项目道德与监管主任 Tim Hwang对此有自己的观点。
像核弹一样危险?我可不这么认为。我们看到的那些案例当然令人不安。这确实令人担忧,也引发了很多问题,但我怀疑Deepfake是否具备很多人说的那种游戏规则改变者的能量。
Deepfake的起效机制
老话说,眼见为实,但真实情况却是“信念即所见”:人类总会去找寻支持自己信念的那些信息而忽视其他。
人类的这种倾向性可以赋予作恶者巨大的能量。故意造谣再伪装成“真相”大肆散布的假情报,或者说所谓的“假新闻”,我们已经见识过了。等事实核查员开始辟谣的时候,往往已为时过晚,比如卷进了希拉里的“#披萨门”假新闻事件。
Deepfake通过生成性对抗网络(GAN)来利用这一人类认知偏向。GAN中两个机器学习(ML)模型一决高下,一个在数据集上训练后生成虚假音视频,另一个则试图检测这些伪造物。造假ML模型持续生成假视频,直到作为对抗的另一个ML模型再也不能检测出来。训练数据集越大,造假ML模型越容易做出可信Deepfake。这也是为什么第一代Deepfake中常会有前总统和好莱坞名人出镜的原因——有太多公开视频录影可供训练造假ML模型了。
GAN上当然不仅仅有虚假色情视频和让政客口吐污言的恶搞,还有很多其他用户在做些别的。GAN是“无监督式学习”,也就是ML模型自己教自己的学习模式上的一大跃进,在提升自动驾驶汽车识别行人和车辆的能力,让Alexa和Siri之类语音数字助手更健谈上潜力无穷。有人预言,GAN代表着“AI创造力”的崛起。
普通用户下载个FakeApp就可以开启自己的Deepfake之旅了。这个App用起来不像记事本那么超级简单,但稍微懂点极客知识的用户应该都没什么问题。
也就是说,造谣的途径真的太多,用“打地鼠”的方式对付deepfake永远扑不灭,按下一个冒一个。即便是在当前,也有很多很廉价的方法可以用来蒙骗和影响公众舆论,甚至都用不到深度学习或机器学习出马。
举个例子,带路党常用的“看图/视频说话”法:拍/截一段一大帮人街头暴揍某人的视频,然后配上一段虚假的事件描述,就比如说宣称打人者是外地人吧;根本用不到什么花哨的ML算法,只需虚假描述看起来可信,视频符合描述,假新闻便炮制成功,后续影响不可估量。
如何检测Deepfake
Deepfake检测是个难题。很业余的Deepfake当然肉眼可辨,机器也能发现诸如没有眨眼动作或阴影位置不对之类的证据。但生成Deepfake的GAN一直都在进化,很快我们就不得不依赖数字鉴证来检测了——如果我们还有能力检测的话。
Deepfake影响甚大,其检测又如此之难,以致美国国防部高级研究计划局(DARPA)都在砸钱找寻鉴定视频真实性的更好方法。不过,因为GAN本身可以被训练学会如何规避此类鉴证检测,鉴证专家能不能赢下这场鉴证攻防战还没个定数。
理论上而言,只要你给了GAN我们当前掌握的所有鉴证技术,它就能绕过所有这些技术。我们不知道这里面存不存在学习极限问题,目前还不清楚。
有批评家警告称,如果我们无法检测虚假视频,很快我们就会被迫怀疑一切所见所闻。互联网如今已渗入我们生活的方方面面,无法相信自己的眼睛耳朵会导致“真理的消亡”。不仅仅是我们的政治体制信仰会受到冲击,长此以往,就连什么才是客观现实我们都不敢相信了。如果我们连事情真假都不能达成一致,还怎么辩论政策议题?
但也有人对此持不同看法,认为我们还没到达分不清真假的那个阈值。
最后,围绕Deepfake的种种喧嚣或许恰是我们拥有的最大保护。知道视频可以伪造,Deepfake的破坏力就没那么大了。