基于深度学习的对抗样本生成研究文献综述-综述网

文献综述（或调研报告）：

深度神经网络的脆弱性

已经有深度神经网络（DNN）在各种模式识别任务上实现了最先进的性能，最显着的是视觉分类问题。鉴于DNN现在能够对图像中的对象进行分类，并接近或达到人类级别的准确度，人们自然而然会提出关于计算机与人类视觉之间存在哪些差异的问题。最近的一项研究[1]表明，如果以人类难以察觉的方式改变这些输入深度学习模型的图像，可以使DNN将图像标记为完全不同的东西（错误分类）。文章中展示了一个相关的结果：论文作者很容易生成一个对人类来说完全无法识别，但是那些DNN却认为是可识别的物体，并且具有99.99％的置信度。具体来说，论文作者采用经过训练的卷积神经网络，这些网络在ImageNet或MNIST数据集上表现良好，然后再找一些使用进化算法或梯度上升算法的图像，DNN会以高置信度将这些图像分类。但是论文作者有可能生成那些人眼无法识别，但对

DNN来说几乎可以肯定正确分类的图像，文章的研究结果揭示了人类视觉与当前DNN之间的有趣差异，并提出了有关DNN计算机视觉普遍性的问题。

2. 深度神经网络的黑盒攻击

深度神经网络易受对抗样本的影响：输入恶意被篡改的数据以产生错误的模型输出，同时让人们开起来并没有被改动过。潜在的攻击包括恶意内容，如被识别为合法的恶意软件。然而，所有现有的对抗样本攻击都需要了解模型内部或其训练数据。论文作者介绍了一个攻击者在没有这种知识的情况下控制远程托管的DNN[2]。实际上，黑盒对手的唯一能力是观察DNN给出的选择输入的标签。他们的攻击策略包括在训练局部模型以替换目标DNN时，使用由对手合成生成并由目标DNN标记的输入。论文作者使用本地替代品来制作对抗样本，并发现它们被目标DNN错误分类。为了进行一个较为真实且无预判的评估，文章攻击了由在线深度学习API MetaMind托管的DNN。发现他们的DNN错误分类了84.24％的对抗性样本。作者通过使用逻辑回归替代品对亚马逊和谷歌托管的模型进行相同的攻击，证明了该策略对许多ML技术的普遍适用性。它们产生了亚马逊和谷歌错误分类的对抗样本，误判率为96.19％和88.94％。作者还发现，这种黑盒攻击策略能够规避以前发现的防御策略，但这也使得对抗样本更难以制作。

3. 解释和利用对抗样本

包括神经网络在内的几种机器学习模型始终会错误地分类对抗样本 - 通过对数据集中的样本应用微小但有意的扰动而形成的输入，使得模型以高置信度输出不正确的答案[8]。早期人们尝试解释这种现象并将其归类到非线性和过度拟合问题上。作者认为神经网络易受对抗性扰动的主要原因是它们的线性特性[4]。这个解释得到了新的定量结果的支持，同时它也解释了关于这些问题的一个有趣的事实：跨架构和训练集的泛化。此外，该观点还提出了一种生成对抗样本的简单快速的方法。通过使用这种方法为对抗训练提供样本，论文作者减少了MNIST数据集上Maxout网络的测试集错误。

4. 抵御对抗扰动——蒸馏[5]

剩余内容已隐藏，您需要先支付 10元 才能查看该篇文章全部内容！立即支付

发小红书推广免费获取该资料资格。点击链接进入获取推广文案即可： Ai一键组稿 | 降AI率 | 降重复率 | 论文一键排版

注册

找回密码

基于深度学习的对抗样本生成研究文献综述

您可能感兴趣的文章

登录

注册

找回密码

您可能感兴趣的文章