如何保护深度学习系统-后门防御

发布时间：2022-08-01 12:00:46 所属栏目：安全来源：互联网

导读：前言后门攻击是AI安全领域目前非常火热的研究方向，其涉及的攻击面很广，在外包阶段，攻击者可以控制模型训练过程植入后门，在协作学习阶段，攻击者可以控制部分参与方提交恶意数据实现攻击，甚至在模型训练完成后，对于训练好的模型也能植入后门模块，或者

　前言

　　后门攻击是AI安全领域目前非常火热的研究方向，其涉及的攻击面很广，在外包阶段，攻击者可以控制模型训练过程植入后门，在协作学习阶段，攻击者可以控制部分参与方提交恶意数据实现攻击，甚至在模型训练完成后，对于训练好的模型也能植入后门模块，或者在将其部署于平台后也可以进行攻击，比如通过hook技术、row hammer技术等。

　　随着攻击的研究逐渐深入，相关的防御方案也被提了出来，对于攻击者而言，接下来再要设计攻击方案，必须要考虑是否能够规避已知的防御方案，而对于防御者而言，需要考虑已有防御方案的缺陷，以及如何改正，才能进一步提高检测效率，不论是从哪方面来看，都有必要对目前典型的防御方案做一个全面的了解。

　　本文就会从样本和模型两个角度，介绍目前典型的方案，这里说的“典型”的标准是指引用量高，常被研究人员哪来作为对比使用，以及发在顶会订刊上的工作，限于篇幅，不可能面面俱到，但是从这些典型方案中基本能了解防御者的防御假设、设计思想等，对我们之后的工作具有参考价值。

　　防御

　　对于一个完整的AI系统而言，最重要的两个组件就是数据和模型，做攻击是从这两门着手，所以我们在分析防御方案时，也分别从数据(样本)和模型两个角度进行研究。

样本角度

　　从样本的角度来分析，可以分成两种，一种方案仅仅检测是否为毒化样本，另一种方案则是会对输入样本进行转换，使样本中可能存在的触发器失效，以实现防御。

样本检测

　　[1]认为对抗样本和毒化样本之间存在一些相似之处，都需要通过小扰动强化错误的预测输出，如下所示

　　左边是对抗样本，加上的扰动为对抗噪声；右边为毒化样本，加上的扰动为触发器。它们在推理过程中会表现异常，所以可以用类似的方法检测，所以研究人员将检测对抗样本的方法应用于检测毒化样本，根据毒化样本的模型敏感性、特征空间和激活空间中的行为等，确定了四种检测毒化样本的方法，对应的示意图分别如下

　　第一种是基于模型突变的：

　　首先设置一个较小的突变率检测模型是否为对抗样本，如果不是，则以较大的突变率继续，检测是否为毒化样本。

　　第二种，基于激活空间，其依据是毒化样本和良性样本在不同网络层的激活空间的行为是不同的。

　　第三种，基于核密度估计，该方法专注于特征空间的异常检测，在特征空间中，被错误分类到目标类别的毒化样本和属于目标类别的良性样本会具有不同的行为。

　　第四种，基于局部本征维（LID），其利用LID的估计来量化目标样本与正常样本之间的距离，因为毒化样本的LID值明显高于正常数据，所以可以用于检测。

　　[2]利用字典学习和稀疏逼近来描述良性样本的统计行为以及识别毒化样本。其框架组成如下所示

　　可以看到两个核心模块，分别是DCT分析器，以及特征分析器，对应来表征模型的输入空间和潜在表示，通过结合两个分析器的决策，实现毒化样本的识别。

　　其中DCT分析器是作为图像预处理的一个步骤，它会在频率域中检查所有输入的样本，以搜索良性样本中异常的可以频率成分，为此，首先将输入图像变换到频域，然后对提取的频率分量进行稀疏恢复，并使用稀疏逼近重建信号，接着检测异常重构错误，并生成一个具有非零值的二进制掩码，该值表示潜在的触发器携带区域，此外为了确保尺寸兼容，DCT分析器中还有一个最近邻上采样组件。

　　而特征分析器用于研究潜在特征中的模式，以发现异常，将其放置在模型的倒数第二层，以利用模型从输入图像中提取的所有视觉信息进行分类决策，其中的稀疏恢复模块的作用是1.对输入特征去噪和2.对重构错误进行异常检测以区分毒化样本。而降维模块是为了自适应调整特征大小，同时最大限度保留信号的信息内容。

（编辑：开发网_郴州站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

几个机器身份管理的优	MITRE组织发布了2022年
安全从智能制造向绿色	企业亟需关注勒索软件