【西安交大沈超分享】用全局视角开展网络欺诈风险识别与防御

IEEE x ATEC

IEEE x ATEC科技思享会是由专业技术学会IEEE与前沿科技探索社区ATEC联合主办的技术沙龙。邀请行业专家学者分享前沿探索和技术实践，助力数字化发展。

在社会数字化进程中，随着网络化、智能化服务的不断深入，伴随服务衍生出的各类风险不容忽视。本期分享会的主题是《网络欺诈的风险与对抗》。五位嘉宾将从不同的技术领域和观察视角，围绕网络欺诈场景下的风险及对抗技术展开分享。

以下是沈超教授的演讲

出品人&演讲嘉宾 | 沈超

西安交通大学教授、网络空间安全学院副院长

ATEC科技精英赛高级咨询委员会专家

《网络欺诈风险识别与防御的全局视角》

非常感谢IEEE和ATEC联合举办的科技思享会。大家好，我是西安交通大学的沈超。我也非常荣幸能够在这里跟大家分享我们对一些问题的看法。这个主题是《网络欺诈风险识别与防御的全局视角》。

我国已将人工智能上升到国家战略层面，在工业医疗领域都有着广泛的应用和市场前景。同时，金融领域已经成为人工智能技术成熟落地应用的行业之一。可以看到的是，2022年我国智慧金融市场的规模已经超过了5000亿人民币大关。

与此同时，在互联网和金融场景之下，人工智能技术面临着巨大的安全威胁和挑战。例如AI 人脸支付被欺骗，AI 伪造数据取钱等等。根据统计，从2017年到2021年，全球利用智能伪造等技术进行网络欺诈导致的金融损失，累计已经超过300亿美元。其中可以观察到利用语音、视频等信息伪造技术进行网络欺诈的案件频发。例如，2019年伪造语音诈骗总额高达了1700万美元。深度伪造技术以假乱真，引发了很多的争议，而视频合成技术也被不法分子利用，进行网络诈骗。

这样现象背后都是AI 技术在发展的同时，带来的隐私和风险，尤其在互联网及金融场景下的应用更为明显。因此，今天想跟大家也分享一下，从我的观点来看，互联网场景或者金融场景之下，AI技术面临的安全风险和挑战。

我们以这个AI 的这个流程，尤其是机器学习方法的实际应用流程来分享。在这里我们很粗略地将它分了四个阶段，包括了模型训练、模型推断、模型部署和模型应用。

模型训练阶段

在模型训练阶段的风险问题是，模型很容易遭受到后门攻击。这是模型安全风险中一个重要问题。由于缺乏时间、数据或设备等等，导致预训练需要进行微调，而很多厂家都会使用公开预训练模型。

我们需要注意到的是，共享的模型被很容易被植入后门，因为模型是来自于第三方机构的，类似于BigML 、open ML等等。有很多技术爱好者或技术人员在这些网站上放出开源模型，大部分从业者会从上面下载相关模型，在这些模型的基础上进行二次开发，再应用到自己的场景当中去。而我们知道，这些模型很容易被别人植入后门。在模型的sharing 和reusing的过程之中，就会导致用户被动地把有后门的模型用在系统里。现在有一些后门植入方法，即便对模型进行重新的全局训练，也会存在相关的后门点。而且，现在很多模型参数很大，有些语言模型或更大厂商的模型，有上千亿、甚至上万亿个参数，全局训练需要花费相当大的人力和资源。具体来说，对于这种公开的模型，其实后门植入是比较简单的。但是，由于很少有人会放出来一些后门的样本数据，所以测试数据集非常少。并且应用场景很广泛。导致现在去寻找这样的后门是非常困难的。

我们团队曾做过一个研究，就是我们下载了这个领域当中最popular的前500个模型，这些模型下载量都很大，有的一个月的下载量能上好几十万。在这样的模型之上，我们利用自己开发的工具进行后门检测，发现大量的公开模型存在很多后门点，或者说有很多容易被攻击者利用的后门场景。因此，这种后门的植入手段引发的风险是很大的。而且，后门检测的限制条件很多，很多后门的植入方法是很明显的，很容易看出来他对原始图片是有修改的。

我们团队自己在做相关的研究，很多比较前沿的后门的植入趋势是让后门变得更加自然，更加不突兀、即像素级的后门修改，这样的后门很难检测。植入后门很简单，我可以在上亿个神经元之中放置后门的选择点，但是我想把它找出来却是一件很难的事。触发器在哪里、什么样的、什么效果，你并不知道，而且测试集验证集也很少，很难去触发一些触发器的特征或者一些标注，使得后门的检测面临着很大的挑战。但是，这种模型的应用点是非常多的。这样的威胁如果存在于模型之中，而且没有被你发现的话，可能会带来相当严重的后果。

其实，后门植入过程也比较简单，首先是后门的配置。比如我们在 “5”的图片上增加一个框体，我们将这样的一个框体作为它的后门的触发点。我们在训练的时候，把“5”和框体配在一起，再给它标签给成“4”。在做神经网络训练的时候，这样一个样本会被神经网络训练成“4”，那做识别的时候，如果模型看到这样一个“5”，模型就触发给出“4”的结果。这就完成了一个后门输入的过程。所以，我们可以看到后门植入过程是非常简单的（你要做点坏事情是很容易的）。随着后门植入相关攻击领域的发展，有一些后门植入的新的概念和方法出来。我们的团队的研究方向，是让后门植入更加隐蔽。

以人脸识别为例，人脸识别的过程是从原始输入到人脸检测、到区域识别、到特征提取，再把人脸特征拿出来之后再存入到特征库里面，就完成了人脸训练集数据的写入。他在特征在这个识别的时候，我们拿一张新的照片出来，把这个人脸抠出来，然后提取他这个特征，再和特征库中的特征进行匹配，如果合适的话，就完成人脸识别。我们可以关注到原先的后门植入方法都是在原图上进行像素级的修改，但是现在，因为我们可以很容易地将“在原图上修改的后门”识别出来，如果我们再下沉一步，把这两个后门放在特征提取网络上。如果在特征提取环节进行后门的改写，或者说后门植入的话，那在原始图片上就很少有修改了，这样的过程导致后门的提取、后门的检测变得异常的困难。我们做了很多的实验，我们发现在物理场景之中，基于特征后门攻击的方式，对当前所有的后门特征检测的方法都是有效的，而成功率是极高的。

除了这个后门的植入过程，我们还要关注后门检测的环节。当前的这个学术领域及工业界，包括我们自己关注的后门检测环节主要三类：第一是摄动输入聚类分析、第二是隐层输出轨迹分析、第三是智能模型参数分析。我们可以看到，大家关注的环节分别对应着模型部署、集成和模型推断。

你关注这样的环节，就意味着我们会将后门检测方法分为三类：一类是白盒的、一类是灰盒的、一类是纯黑盒的。所谓白盒，就是大部分模型参数分析会放在模型部署环节之中，相当于从逆向来看，从输出推导到输入，追踪这样有后门的输出，对应输入是什么是什么情况。但是，这样的方法需要对模型进行一个白盒的写入，就是你要知道模型的所有的细节。再往上的话就是在模型集成环节做隐层的输出，隐层输出在中间层。我们追踪当前的历史样本的输入，从输入来看当前的输出是什么效果。然后再往上的话，就是纯黑盒，从大量的输入来推断相关的后门是否存在，意味着你在输入阶段需要有大量的后门样本。因此，前期的样本收集和评价非常关键。

此外，我们还想提一个模型训练阶段的延伸风险，这是跟后门有点关系，但是是从另一个侧面来看这个问题的。我们知道在训练环节会发现很多细节和问题点，但这些问题都存在很强的隐蔽性，很容易导致时间和资源浪费。因为模型训练的过程中，我们大部分的人如果碰到了模型训练的问题，第一个反应是，我重新跑一遍。但是，训练一个大规模的深度学习模型，往往会花费很长的时间，模型训练问题的解决非常重要，而不是把这个模型直接重新跑一遍，导致时间资源的极度浪费。

我们观察到这个问题之后，想让这个偶发性的问题要得以解决。因此，我们想做一个关于训练问题的自动化检测和修复的手段，在模型训练遇到问题时，不必简单粗暴地重新训练。对模型深度学习训练状态进行实时监控，对训练状态引发的潜在风险进行检测，并对问题进行实时修复。针对这样的思路和解决方案，我们提出了一款基于深度学习的检测框架。我们对全网就我们能看到的、最populpar 的495个模型，进行了检测和修复的测试。我们发现训练问题的检测准确率达到百分之百，修复成功率也达到97.33%，平均准确率能提升到47%，这里的训练问题，我们主要关注梯度消失、梯度爆炸、Dying ReLU、不稳定收敛、缓慢收敛这5种训练问题。

模型推断阶段

现在，我给大家汇报我们在模型推断环节所产生的一些相关工作，说到模型推断，不得不提到对抗样本问题。我们都知道对抗样本是对原始数据进行修改，然后构造一些人类难以分辨的扰动，这样的扰动会引起深度学习算法决策的输出改变，它主要的目的是造成人类与深度学习模型认知的差异。最经典的对抗样本事例就是从大熊猫到长臂猿。但是我们需要注意到的是，这样的扰动肯定不是随机的扰动，它一定是一个精心设计的扰动。从这样的扰动出发，我们可以欺骗出相应的机器学习模型。我们可以发现，这样的对抗攻击方式目前对人脸识别的支付，AI金融的产业也造成了一定的威胁和挑战。

智能算法的对抗攻击现在面临着很多复杂多变的不确定的场景，导致当前的这种攻击成功率并不高、隐蔽性差等问题。我们现在的一个主要思路，是可以利用模型的可解释性，获取样本的关键区域，并对这种可解释性关键区域提出基于模型可解释性感知图的对抗攻击，用这样的方法在一定程度上来遏制对抗攻击对于部分识别和智能感知场景造成的影响。此外，我们针对对抗环境中算法的多样性，和信息获取的完整性，可以利用平移空间的对抗样本的通用和可转接性进行激励。然后设计相关的敏感频带定位方法，以此在一定程度上对对抗扰动进行缓解和遏制。

在对抗防御的方面，我们会利用多层级领域分布探索机制，并基于自蒸馏的动态软标签预测机制，和自监督的动态软标签对抗防御方法来防御统计噪声和对抗扰动造成的负面影响。这里面有2类技术，一类是表征空间特征探索，相当于我们在表征空间中找到这种跨域的机制探索的方法，同时采用一些自蒸馏的软标签监督信号，对对抗攻击进行防御。此外，通过互斥类中正确识别样本的非齐次特征凸拟合，探测模型决策边界的预测歧义区域。同时，也可以利用获得的关键样本对模型进行微调，来提高受保护模型的鲁棒性。

因为鲁棒性也是我们这个对抗样本研究中很关键的一个内容。对抗样本的原理，就是我们需要实现样本的跨界。所以，我们要在这样的情形之下，对关键样本进行对抗微调，以使得这种决策边界具有更好的鲁棒性，更好地提高防御效果。

在模型推断阶段，我们还想提一下深度伪造的安全问题。因为深度伪造安全问题，现在的这种场景很多，给身份欺诈，金融欺诈等带来各种各样的风险。深度伪造技术也可以对人脸、物体、场景的合成，人脸属性编辑、表情操控等方面有一些明显的影响。

在人工智能对抗场景之下，伪造内容的检测迅速发展，对个人风险、企业风险、国家风险都会引发负面的效应。如在现实场景之中，AI 伪造语音的欺骗，AI 伪造视频的诈骗，还包括AI 伪造身份欺诈等等。具体来说，深度伪造技术分两类，一个是基于图像的深度伪造，一个基于视频的深度伪造基于图像的深度伪造技术，又包括基于传统的机器学习方法，基于CNN的信号伪造检测的方法，还包括基于视频连续性的，基于GAN特征的检测方法。基于视频的深度伪造方法，还包括基于视频连续性差异的方法、基于多帧物理级的方法，基于多帧行为差异的方法。

总体来看，深度伪造的检测技术是比较迥异的，而且缺乏统一的评估标准。因此，为了实现高效率，高精度的伪造检测，我们采用了单帧、关键帧的检测方法，来对这种多类的方法进行比对。我们可以看到，这种关键帧的检测、多帧输入的模型检测设计，是这中间的核心问题。从当前的结果来看，检测精度不下降的前提下，我们的效率可以提升10%以上。

我们对现有的检测方法做了一个总结，我们可以看到现有的深度伪造检测方法各异，缺乏在统一数据集上进行公平的对比，检测能力评测指标单一且不完善，缺乏对性能指标的一些评价。因此，在这样的一个基础之上，我们构建了这个深度伪造的检测评估基准，包括了十多种主流的深度伪造检测方法，还有包括7个主流的深度伪造数据集。但是，我们发现在人眼感知与算法感知困难的伪造基准数据集上，效果差、实用性差。

我们目前集成了多个主流的数据集、多种算法对检测方法进行了一个全方位的整合，构建了这种深度伪造基准的数据集。以深度伪造、精准化的评估方法，形成了深度伪造检测的欺诈风险识别系统。然后，这个系统当时包含了多种数据集、多检测算法，多生成质量评价，与多检测算法，还有包括相关的标准以及能力的评估等。

我们希望能够通过这样的手段和方式，在一定程度上，来降低深度伪造所造成带来的安全风险。

模型部署练阶段

接下来我们大家汇报一下，在我们部署环节，我们可能遇到的安全风险。模型部署阶段，我们面临AI模型可解释的问题，即决策结果难以解释、存在安全欺诈风险的问题。具体来讲，AI模型对预测结果很难解释得清，这导致了互联网场景下安全欺诈风险的产生。比如对狼的图片，我们利用模型梯度信息进行可视化后，可以发现相关的结果是在于：模型将带有雪地背景的图都识别成了狼。这证明该模型推断过程存在很大的问题，不具备很好的可解释性。

针对这样的问题，在模型可解释性项目方法研究中，我们研究了输入样本各部分对这个决策的重要影响，提出了从输出到输入的特征归因的方法，在特征归因的情况下，观察每个输出决策部分，对应样本的输入特征是什么？然后把这样一个对应映射关系从一定程度上作为模型可解释性的一个度量方法。

其次，还有一些特征可视化的方法，那就是从输入到输出了。我们在这里通过神经元学习到的特征进行可视化的展示，从输入到输出进行特征到输出结果的一个映射。这样的方式也可以作为一个将模型的梯队信息进行可视化，然后用这样的可视化图做一定的解释。

模型应用阶段

最后是AI应用阶段的安全风险。在模型应用阶段，我们可以看到AI框架被大量广泛地使用。因为框架都是极其基础的。不管国内还是国外的，现在有很多企业都有比较成型的框架。代码都是由这个程序员去写的，海量代码一定存在安全隐患，因为人是最不稳定因素之一。我们在开发任何框架之前都会依赖库。再往上层，有一些深度学习的框架，然后比较典型的有Torch，TensorFlow 等等，再上层才是用户的层面，有Program Logic、用户的数据、模型等等。我们前一阵子做了一个深度检测分析，有人会写一些package。但是我们对于package 进行一个深入分析之后，会发现存在很多漏洞。比如一些漏洞的潜在威胁在于heap overflow堆栈溢出，还有crash、DOS拒绝服务等等问题，可能会导致整个机器学习系统的崩溃，所以在机器学习实现过程中的安全风险，还蛮大的。我们希望能引起大家的重视。

所以，针对深度学习框架多后端安全代码实现安全分析，我们也开发了相关的工具。从传统的模糊测试到人工智能可信的角度出发，提出了基于模糊测试、遗传算法、感知增强、脆弱性问题到评估反馈等一系列执行手段，这里的关键问题在于脆弱性检测和安全隐患定位。脆弱性检测在于研究如何改进现有的分析方法，来增强相关的这种发掘能力。安全隐患定位是从已有的情况出发，发现导致这个当前风险的模块和函数在哪里。

基于这样的一个思路，我们开发基于以上算法的模糊测试的深度学习框架的多后端的检测工具，发现并被定位了TensorFlow,Theano等四个主流框架的，我们目前也对框架进行了扩展，现在支持了8个框架。相关的论文我们已经发表了，大家感兴趣的话可以去看一下。

总结

在互联网或金融产品之下的AI 模型，我们看到了今天分享的几个阶段，包括训练阶段，推断阶段、还有部署阶段和应用阶段，都是可能会导致当前出现风险和安全隐患的环节。每个环节之中，都有一些相关的一种技术点或者是攻防的手段需要大家去注意。我们的目标是想能够形成一种全周期的AI 安全风险识别与防御手段。在未来的研究工作之中，我觉得数据和机理融合是很重要的。我们知道现在的模型都是通过数据驱动来形成的，模型本身一定要与当前的业务场景相结合，需要对应用场景的机理进行理解。在此基础上，数据驱动和机理理解融合起来，形成网络欺诈智能识别防御，才是未来的一个比较好、一个值得去做的一个方向。

OK，今天我跟大家分享就到这里，谢谢大家。

本站部分文章来自互联网，文章版权归原作者所有。如有疑问请联系QQ：3164780！