天创培训:您身边的信息安全培训专家!
行业动态
关于Deepfake的真相——足以骗倒任何人的强大工具

从本质层面来讲,deepfake相当于人脸加声音克隆AI技术的结合,计算机借此生成的视频可创造出足以乱真的显示效果。

关于Deepfake的真相——足以骗倒任何人的强大工具


为了开发出高质量的deepfake伪造成果,开发人员需要不断积累克隆目标的面部/声音素材,包括与本人表现非常相似的其他模仿者素材,总视频片段需求量往往高达数十小时。

Deepfake的实际创建需要两人的参与,一人(大多为知名人物)提供目标面部/声音,另一人(普通人即可)则提供形体轮廓。

从技术到现实

从技术的角度来看,视觉deepfake需要利用机器学习工具进行设计。这类工具能够将与两人相关的全部面部表情图像,解码并拆分成由一系列关键属性(例如位置)组成的矩阵,并将双方同一目标的鼻子、眼睛与嘴巴映射起来。与此同时,机器学习一般认为皮肤纹理及胡子等细节属于次要属性,对于伪造效果的影响相对较小。

一般来说,以这样的方式进行解构时,我们就能利用剥离出来的元素重新构建面部的原始图像。此外,决定deepfake实际质量的一大核心要素,在于最终图像的重建效果——重建效果越好,模仿者的面部活动与模仿目标的五官越是协调统一。

伊利诺伊理工大学斯图尔特商学院副教授兼研究员Matthew Dixon对这一问题做出了详尽说明。他在采访当中指出,目前利用某些程序与技术重建面部与声音已经不是难事:

“一旦对目标进行了数字克隆,就可以制作出其说出任何言语的伪造视频,包括在社交媒体上发表恶意宣传的影像。普通社交媒体用户根本无法分辨该视频是真是假。”

同样的,在谈到deepfake技术的积极作用时,Ethereum Express(一套跨平台deepfake解决方案,期盼自有区块链创新模型加权益证明共识协议)公司CEO Vald Miller在采访中表示,图像合成过程实际用到了GAN机器学习技术,即通过算法部署两套神经网络,通过彼此对抗强化伪造效果。

其中第一套神经网络负责生成图像样本,第二套则尝试将真实样本与伪造样本区分开来。GAN的工作原理基本等同于两个人结对工作,第一人负责伪造,第二人则尝试将复制品与原件区分开来。如果前者的伪造效果不好,后者能够很快分辨出真伪,接下来前者再据此改进伪造手法、制造出更为逼真的结果。

关于deepfake视频可能给大众带来的负面社会与政治影响,麻省理工学院资深区块链/加密货币专家、FTI Consulting高级执行董事Steve McNew在采访中指出:

“在线视频正迅速成为最主流的信息来源。设想一下,如果社交媒体和新闻媒体疯狂地,或者悄无声息地篡改某些视频片段,会带来怎样的影响。例如,伪造警方公布的摄像内容,或者让处境艰难的政客或国家领导人发表极具煽动性的演讲,都会令广大民众信以为真。Deepfake技术,确实很有可能被用于进行恶意宣传及其他形式的欺诈活动。”

源于deepfake的恶意用例

由于deepfake技术能够很好地篡改并模仿现实世界当中,真人目标的面部特征与性格特征,因此人们普遍担心其被用于各类邪恶的目的。

此外,最近几年来,互联网上开始出现大量简单的操作教程,教导人们如何创建以数字化方式篡改过的音频/视频数据。这一切,已经开始令各类人脸识别系统陷入瘫痪。

不仅如此,最近还出现了一系列令人感到不安的音频/视频篡改实例,促使人们对deepfake的危害做出深刻劝。例如,最近有一篇文章提到,自2014年诞生至今,deepfake技术已经能够制作出非常精良的视频。其中的人物不仅能够表达某些情感,甚至还能体现某些种族性或者年龄性的特征。在这方面,生理生物识别技术供应商Aerendir公司CEO Martin Zizi在采访中解释道:

“AI技术并不是从错误当中学习,而是从简单的统计结果当中学习。某些细节看似微小,但以统计数据为基础的AI技术却能利用规模极大的素材库将其识别出来,并转化为多维统计分析结果。这可真是成也统计学,败也统计学。”

Zizi还补充道,人脸识别的一大特点,在于它实际上基于非常脆弱的神经网络。从结构的角度来看,这些网络就像是一座宏伟的大教堂——看似坚不可摧,但移除一块基石,整栋建筑就有可能瞬间崩溃。为了进一步阐释这个问题,Zizi表示:

“对于一张包含1200万个像素的人脸图像,只要从中删除3到5个像素,识别率就可能下降为零!研究人员们已经意识到,针对神经网络攻击的对抗攻击完全有能力找到图像当中作为「基石」的这3到5个像素点。”

最近deepfake技术还在财务层面捅出一个大娄子。某位未公开姓名的英国能源公司CEO在骗子的误导下,将22万欧元(折合24.3万美元)转移到某个未知的银行账户。他当时天真地认为电话那头就是他的老板,该公司母集团的总CEO。但实际上,诈骗者伪造了音频,利用deepfake成功攻陷了这位企业高管。

区块链有望抵御deepfake冲击

根据Witness Media Lab最近发布的长达72页的报告,区块链技术被视为一种有望抵御deepfake相关数字威胁的合法工具。

在这方面,人们可以利用区块链制作数字签名,用以直接或者间接确认接收到的视频或者音频文件是否真实可信。因此,特定视频当中包含的数字签名越多,其可靠程度也就越高。

Factom Protocol公司市场营销总裁Greg Forst在评论此事时表示,谈到deepfake问题,区块链确实有潜力给全球技术社区带来独特的解决方案——或者至少在其中扮演重要角色。他指出:

“视频内容一经创建,就会被保存在区块链上,同时附有验证签名或者图形,这无疑给deepfake的操作设下了障碍。但是,这也要求我们第一时间将视频内容存放在区块链上,同时严格强调内容的来源与创作者。可以想见,这种从源头上保护数据并在媒体当中推广新型标准的做法,还有很长的普及道路要走。”

McNew还认为,凭借着区块链的整体不可变性,一旦特定数据区块被网络确认,内容就将无法变更。因此,如果让视频(或者照片)在传播之前首先交由区块链验证程序处理,那么人们就能很轻松地识别出据此伪造的视频(照片)。

最后,Miller也提出了类似的观点。他认为区块链技术与AI相结合,有助于解决deepfake带来的一系列隐私与安全问题。他补充道:

“AI技术能够完美解决数据的收集、分析、分类与传输工作,显著提升内部流程的执行速度与质量。在另一方面,区块链则负责「保证」AI的工作内容不受他人干预——包括保护数据及其序列不受篡改影响。”

区块链技术也有自身局限性

就目前来讲,区块链技术当中仍存在一些小缺陷,这些缺陷导致其无法很快被用于监控互联网上的deepfake活动。首先,对于初学者而言,该技术的总体可扩展性仍然严格受限,特别是考虑到处理数字化视频/音频素材时带来的巨量计算及内存资源消耗。

区块链在deepfake检测领域的另一个实际应用难题在于,其可能严重影响众包视频内容的生产(例如YouTube上的各类原创视频)。关于这个问题,Dixon指出:

“如果来自某贫穷国家的用户必须先向硅谷科技企业提出申请才能上传视频,那么他们还有可能将信息传递给全世界吗?我们能够放心把决断之力交给这些科技企业吗?如果无法建立信任,那么自由也将不复存在。”

分布式账本系统Bitlattice(利用多维网格结构解决区块链技术的可伸缩性、安全性以及时序等技术问题)缔造者兼公司创始人Hibryda也抱有类似的观点。他认为:

“区块链技术的最大缺点,在于无法确定媒体签名是否真实可信。但这并不是区块链或者说技术层面的内部问题——毕竟区块链的作用仅仅是提供难以篡改的分类账,如此而已。所以面对这类外部矛盾,并没有很好的解决办法。虽然以民众为基础的验证流程有望解决问题,但人群同样可以被操控,因此构建起一套能够可靠、客观地进行事实查证的系统,几乎是项不可能完成的任务。”

但Forst在采访中也提到,虽然大多数人觉得利用区块链检测deepfake活动似乎成本过高,但目前出现的几种开源解决方案似乎有望带来可行性。最后,Forst总结道:“区块链最大的缺点,在于它只能在一定程度上解决deepfake问题,而无法彻底将其消灭。”