加入收藏 | 设为首页 | 会员中心 | 我要投稿 威海站长网 (https://www.0631zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 运营中心 > 网站设计 > 教程 > 正文

CanSecWest 2019 | 如何用AI“欺骗”AI?

发布时间:2019-04-13 13:18:28 所属栏目:教程 来源:腾讯技术工程
导读:引言:隐形T恤 在威廉吉布森的科幻小说《零历史》中有这么一个情节:有人发明了一件奇丑无比的T恤,其神奇之处在于,这是一件能在监控摄像下隐身的衣服只要穿上这件T恤,就能神乎其技地躲开监控,去做一些见不得光的事情 在现实世界中,这已经不完全是科幻
副标题[/!--empirenews.page--]

 引言:隐形T恤

在威廉•吉布森的科幻小说《零历史》中有这么一个情节:有人发明了一件奇丑无比的T恤,其神奇之处在于,这是一件能在监控摄像下“隐身”的衣服——只要穿上这件T恤,就能神乎其技地躲开监控,去做一些见不得光的事情……

在现实世界中,这已经不完全是科幻概念了。在目前的AI攻防研究中,这种监控摄像下的“隐形T恤”已经有了具体的表现。其出现的主要原因是AI算法设计的时候未充分考虑相关的安全威胁,使得AI算法的预测结果容易受恶意攻击者的影响,导致AI系统判断失误。

可见,AI在改变人类命运的同时,也同样存在安全风险。这样的安全风险可以体现在医疗、交通、工业、监控、政治等众多领域。犯罪分子通过恶意攻击来“蒙蔽”AI,甚至可能进行扰乱政治选举、传播黄暴恐、蓄意谋杀等重大犯罪活动。

因此,AI安全不容忽视,特别是来自于外部攻击导致的AI模型风险,比如对抗样本攻击可以诱导AI模型进行错误的判断,输出错误的结果。本文主要针对这一问题进行分析。

1.什么是对抗样本?

对抗样本(adversarial examples),最早由Szegedy等人[1]在2013年提出。它是指通过给输入图片加入人眼难以察觉的微小扰动,使得正常的机器学习模型输出错误的预测结果。如图1所示,输入一张熊猫图片,正常的深度神经网络可以正确地将其识别为“panda (熊猫)”。但是有针对性地给它加上一层对抗干扰后,同一个深度神经网络将其识别为“cocktail shaker (鸡尾酒调酒器)”, 如图2所示。

CanSecWest 2019 | 如何用AI“欺骗”AI?

图1. 正常图片识别

CanSecWest 2019 | 如何用AI“欺骗”AI?x`

图2. 对抗样本攻击

那么对抗样本出现的原因是什么呢?主要有两个原因导致对抗样本的出现:

(1)首先,基于深度学习的神经网络模型可学习的参数有限,导致神经网络的表达能力有限,无法覆盖所有图像的可变空间。而且目前用于训练神经网络的数据集相对于整个自然场景图像的空间来说,依然只占很小一部分空间,因此可能存在这样一类与自然图像中的样本很相似的样本,人眼无法察觉到它们的差异,但是神经网络将其识别错误。

(2)其次,神经网络中的高维线性变换导致对抗样本[2]。例如,假设存在样本x和网络权重W,对样本x加入微小的干扰η来构建对抗样本,即

,对于线性变换

,WTη为噪声的线性积累,当线性变换的权重W与噪声η 的方向一致或完全相反时,导致这两者的点积最大或最小,导致输出超出正常范围,最终导致神经网络预测错误。

因此,对抗样本并不是将随机产生的噪声叠加到正常的样本上就可以使模型识别错误,而是与模型的参数W有关。对抗样本是一种被恶意设计来攻击机器学习算法模型的样本。

一般来说,对抗样本攻击可以分为有目标攻击(targeted attacks)和无目标攻击(non-targeted attacks)。所谓有目标攻击,即给定目标类别,修改输入图片,使神经网络将其识别为目标类别。而无目标攻击,只需要修改图片使其类别发生改变即可。

对抗样本攻击还可以分为白盒攻击(white-box attacks)与黑盒攻击(black-box attacks)。其中白盒攻击是指攻击者能够能够获知机器学习所使用的算法以及算法所使用的参数,攻击者在生成对抗样本的过程中可以与机器学习系统有所交互。而黑盒攻击是指攻击者并不知道机器学习所使用的算法模型或参数。

2.对抗样本是怎样生成的?

2.1 优化目标

近年来,对抗样本的生成算法得到了快速发展,其中利用模型参数最大化模型分类损失的方法最为常用。该方法的总体分类目标可以定义为:给定模型y = f ( x, W )(其中W为模型参数,x为模型输入,f ( x, W )为输入到输出的映射),对抗样本

 可以定义为: 

 CanSecWest 2019 | 如何用AI“欺骗”AI?

其中l (·, ·)为损失函数,刻画原始样本输出和对抗样本输出的差异。可以使用梯度上升(gradient ascent)的方法来解决该最大化优化问题。

2.2 FGSM

Goodfellow等人[2]提出了一种名为Fast Gradient Sign Method(FGSM)的快速优化方法,定义如下:

其中t为x的类别。该方法首先计算损失函数针对输入的梯度,再取符号函数,最后加入扰动因子 ε 即可以得到对抗样本。简单有效,仅需一步迭代。但是这种对抗样本生成方法的白盒攻击成功率较低,因为在大多数情况下无法通过一步迭代有效提升损失函数。

2.3 BIM

(编辑:威海站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读