加入收藏 | 设为首页 | 会员中心 | 我要投稿 威海站长网 (https://www.0631zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 运营中心 > 网站设计 > 教程 > 正文

CanSecWest 2019 | 如何用AI“欺骗”AI?

发布时间:2019-04-13 13:18:28 所属栏目:教程 来源:腾讯技术工程
导读:引言:隐形T恤 在威廉吉布森的科幻小说《零历史》中有这么一个情节:有人发明了一件奇丑无比的T恤,其神奇之处在于,这是一件能在监控摄像下隐身的衣服只要穿上这件T恤,就能神乎其技地躲开监控,去做一些见不得光的事情 在现实世界中,这已经不完全是科幻

对抗样本同样可以蒙骗色情识别系统。图11显示了使用Google Cloud [8]色情识别系统将修改后的色情图片识别为正常图片。

CanSecWest 2019 | 如何用AI“欺骗”AI?

CanSecWest 2019 | 如何用AI“欺骗”AI?

 图11. Google Cloud色情识别结果

4.如何防范对抗样本攻击?

针对AI安全对抗样本攻击的防御主要分为三个阶段:数据收集阶段、模型训练阶段、模型使用阶段。图12列出了在各个阶段的各种防御技术。

CanSecWest 2019 | 如何用AI“欺骗”AI?

 图12. AI安全对抗样本防御技术

生成对抗样本(Adversarial Example Generation):该方法是指在模型训练之前进行数据收集阶段,使用各种已知的攻击方法和网络模型生成对抗样本,作为数据的一部分。一般而言,生成的对抗样本的方法和模型类型越多,样本的变化越大,越有利于训练生成鲁棒的模型。

网络蒸馏(Network Distillation):该方法的基本原理是指在模型训练阶段,对多个神经网络进行串联,其中前一个大网络的训练结果被作为“软标签”去训练后一个小网络。相关研究[9]发现迁移知识可以在一定程度上降低模型对微小扰动的敏感度,提高AI模型的鲁棒性。

对抗训练(Adversarial Training):该方法是指在模型训练过程中将在数据收集阶段生成的各种各样的对抗样本加入训练集中,对模型进行单次或多次训练,可以生成可以抵抗对抗干扰的对抗模型。该方法不仅可以增强新生成模型的鲁棒性,还可以增强模型的准确率。

对抗样本检测(Adversarial Example Detection):该方法的基本原理是指在模型使用阶段加入对抗样本检测模块来判断输入的样本是否为对抗样本。可以是在输入样本到达原模型之前进行对抗样本检测,也可以是从原模型内部提取信息来进行判断。例如,输入样本和正常数据之间的差异性可以作为判断标准,也可以简单地训练一个基于神经网络的二分类模型来进行对抗样本检测。

样本重构(Example Reconstruction):样本重构是指将对抗样本恢复为正常样本。通过这样的转换后,对抗样本将不对网络预测的结果产生影响。样本重构最常用的方法是对输入的对抗样本进行降噪,即使用降噪网络将对抗样本转换为正常样本,或是直接在原模型网络架构中加入降噪模块。

模型验证(Model Verification):模型验证是指检查神经网络的属性,验证输入是否违反或满足属性要求。该方法是防御对抗样本攻击很有希望的一种防御技术,因为它可以检测未曾见过的对抗样本攻击。

然而,以上的防御措施都有特定的应用场景,并不能防御所有的对抗样本攻击,特别是一些攻击性较强的、未曾出现过的对抗样本攻击。此外,也可以并行或串行整合多种防御方法,增强AI模型的防御能力。目前,大多数防御方法都是针对计算机视觉中的对抗样本,随着其他领域的对抗样本的发展,比如语音,迫切需要针对这些领域的对抗样本攻击的防御方法。

总结

AI扩宽了人类解决问题的边界,但是也暴露了各种各样的安全性问题。本文剖析了AI系统极易受到对抗样本的攻击,并且现有的防御技术并不能完全防御这样的攻击。一旦AI系统被恶意攻击,轻则造成财产损失,重则威胁人身安全。AI应用的大规模普及和发展需要很强的安全性保证,因此,我们还需要持续提升AI安全、提升AI算法的鲁棒性。安平AI安全研究团队也会在这个领域不断深耕,助力AI事业发展。

参考文献

Szegedy, Christian, et al. "Intriguing properties of neural networks." Computer Science (2013).

Goodfellow, Ian J., J. Shlens, and C. Szegedy. "Explaining and Harnessing Adversarial Examples." Computer Science (2015).

Kurakin, Alexey, I. Goodfellow, and S. Bengio. "Adversarial examples in the physical world." (2016).

(编辑:威海站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读