17万人脸数据遭公开售卖挪威科技大学提出新方法对抗人脸识别

发布时间：2019-11-21 22:00:29

9月11日，北京青年报发表了一则新闻，“17万人脸数据遭公开售卖，当事人对此一无所知”。据报道，北青报记者近日在一家网络商城中发现有商家公开兜售人脸数据，数量约17万条。这些数据涵盖两千人的肖像，每个人约有50到100张照片。更细思极恐的是，每张照片还搭配了相应的数据文件，除了位置信息外，还有人脸的106处关键点，如眼睛、耳朵、鼻子、嘴、眉毛等的轮廓。此外，数据中还提供了人物性别、表情情绪、颜值、是否戴眼镜等信息。

北青报记者以买家身份购买了数据包后发现，其中确实包括2000个文件夹。里面除了明星以外，也有来自医生、教师等普通市民群体的照片，包括未成年人信息。随后，记者联系了数据包中的多位当事人，他们均表示对此一无所知。

经记者投诉后，该商品已于9月9日被下架。但据商家自称，从发售至今他已多次卖出这些数据。商家还称自己也是从事人工智能行业的，平时需要收集这些数据，顺便卖来挣个饭钱。

自己的面部数据在不知情的情况下被采集，还成为了别人的牟利工具，光是想一想就令人不寒而栗。另外需要注意的是，该话题曾在9月11日登上微博热搜。但截至9月12日，却在微博上了无痕迹。

就在前几天，“AI换脸”应用ZAO在网上闹得沸沸扬扬，令大家再度提起对隐私安全的重视。在未经许可授权的情况下采集人脸数据，侵犯了公民的肖像权、隐私权和个人信息安全，属于犯罪行为。但是在金钱面前，仍然有人不惜冒着犯罪风险采集和贩卖人脸数据。

9月16日消息，来自挪威科技大学的《DeepPrivacy: A Generative Adversarial Network for Face Anonymization》（arxiv.org/abs/1909.04538），从新的、更有挑战的角度欺骗人脸识别系统：在不改变原来的数据分布的前提下把人脸匿名化，更通俗地说就是模型的输出还是一张逼真的人脸，姿态和背景也和原图相同，但完全无法识别出原来的人脸身份，也就是「换了一张脸」。

作者们提出的模型 DeepPrivacy 是一个条件生成式对抗网络（conditional GAN），生成器能够以原有的背景以及稀疏的动作标注生成逼真的匿名（其它身份的）人脸。生成器的架构是一个 U-net，用逐步扩大图像尺寸的方式最终生成 128x128 尺寸的图像。

为了避免向这个模型泄露个人信息，按照作者们的设计，这个模型的输入就直接是经过随机噪声遮挡的人脸，模型完全观察不到任何原有面部信息。不过，为了保证生成的质量以及动作的一致性，作者们仍然需要两组简单的图像标注结果：圈出了面部位置的边界框，以及（与 Mask R-CNN 中相同的）标出了耳朵、眼睛、鼻子、肩膀一共 7 个关键点的稀疏姿态估计值。

根据作者们的测试，经过他们的模型匿名化的人脸仍然保持了接近于原图的人脸可识别性，普通的人脸识别模型对于匿名化后的图像，识别出人脸的平均准确率只相对下降了 0.7%。而人脸含有的身份信息自然是 100% 不重合的。

不同人脸匿名方式的对比，从左到右依次为：原图，DeepPrivacy 模型的遮挡后的输入，马赛克，高斯模糊，DeepPrivacy 模型输出

在论文中作者们也做了一项带有一定前瞻性的工作，那就是整理发布了一个新的多姿态人脸数据集 Flickr Diverse Faces。数据集共含有 147 万张人脸，并按照他们的这个模型输入所需，标出了含有面部位置的边界框以及 7 个关键点。这个数据集的独特之处在于它的多样性，它涵盖了许多不同的面部姿态、部分遮挡、复杂背景、以及不同的人。

另一些人脸匿名化结果 —— 左图大家本来可能熟悉，现在就难认出来了

这篇论文的模型中的生成器设计参考了《Progressive Growing of GANs for Improved Quality, Stability, and Variation》（arxiv.org/abs/1710.10196）论文，从低分辨率的图像开始，逐级地提高分辨率、增加细节，最终可以同时兼顾图像中的内容高度协调、高稳定性、高多样性。这种方法是 GANs 首次可以生成 1024x1024 尺寸的高清图像。作者们还一并讨论了一些改进 GANs 训练过程的技巧。

可能有人已经想到了，DeepPrivacy 所做的「生成匿名逼真人脸」的任务，其实就和图像补全（Image Inpainting）高度相似，都是让模型为图像中的指定区域填充全新的内容。不过图像补全任务中要补全的内容就不仅仅是人脸了，包含了各种日常物体和场景。也有图像补全的研究人员尝试过补全人脸的效果，他们在高清晰度、数据丰富、姿态单一的 Celeb-A 数据集上进行尝试，结果模型并不能生成逼真的、身份不同且随机的人脸。

另外，雷锋网 AI 科技评论认为值得一提的是来自英伟达的《A Style-Based Generator Architecture for Generative Adversarial Networks》（arxiv.org/abs/1812.04948），它是 CVPR 2019 的最佳论文之一，也是目前为止生成高清晰度、高多样性的人脸效果最好的方法。毋庸置疑，这种方法生成的人脸比 DeepPrivacy 更逼真，而且也同样可以生成随机的新身份，不过就没办法控制同样的姿态和背景了。

作者们认为大企业可能能够通过这种方法躲避欧盟《通用数据保护条例》（GDPR）的约束。GDPR 中要求，使用个人的隐私数据的时候必须定期征得当事人的同意；但是当无法根据数据识别定位某个个人的时候，企业无需同意就可以使用这些数据。这种人脸匿名化方法就可以成为「无法识别个人，从而绕过 GDPR 限制」的帮手。

不过，在高度遮挡、不常见的角度、复杂的背景中，模型还是会出现一些错误的生成结果的（扭曲的人脸看起来有一些可怕）。作者们也通过对照试验说明了更大的模型大小、7 个动作关键点的标注都有助于生成更高质量的图像。

在 Reddit 以及 Twitter 的讨论上，有人提出，仅仅更改面部是不足以完全隐藏身份的，有的人（比如奥巴马）仅凭发际线就有机会认得出来，再加上穿着、场景、身边的人的话，知名人物能够被认出来的可能性大大增加；也有人提出，变成随机的身份，还不如都用 DeepFake 把所有的脸都换成同一张生成的虚拟人脸，同样可以达到无法通过面部识别确定身份的效果。