解构AI安全产业链条、解决方案和创业机遇( 五 ) _AI安全

国内，百度在2020年就推出了深度换脸检测平台，他们提出的动态特征队列（DFQ）的方案和度量学习方法可以提高模型鉴伪的泛化能力。

文章插图
▲ 图：百度DFQ的逻辑
创业公司方面，瑞莱智慧推出的DeepReal深度伪造内容检测平台，能够通过研究深度伪造内容和真实内容的表征差异性辨识，不同生成途径的深度伪造内容一致性特征挖掘等问题，可以对多种格式与质量的图像、视频、音频进行真伪鉴别。
整体上，从模型训练，到安全防护，从AI Safety 到 Security for AI，大模型行业已经形成了一套基本的安全机制。
当然，这一切也仅仅只是刚刚开始，所以这其实也意味着，还藏着一个更大的市场机遇。
AI安全中的万亿机遇
和AI Infra 一样，在中国，AI 安全同样面临着巨大的产业空白。不过，AI 安全产业链比AI Infra要更加复杂。一方面，大模型作为新事物的诞生，掀起了一波安全需求，且在上述三个阶段的安全方向和技术完全不同；另一方面，大模型技术也被应用在安全领域，为安全带来新的新的技术变革。
安全 for AI和AI for 安全，是两个完全不同的方向和产业机遇。
现阶段推动二者发展的牵引力也完全不同
关于AI安全带来的产业机遇，本文也将从这两个方面进行展开。受限于文章篇幅，我们将对其中同时拥有紧迫性、重要性、应用普遍性最高的机遇进行详细的解释以及对标公司情况的盘点，仅供抛砖引玉。

安全 for AI：3个板块、5个环节、10000亿机遇

回顾一下前文对于AI 安全的基础分类：分为大语言模型的安全（AI Safety）、模型及使用模型的安全（Security for AI），以及大语言模型的发展对现有网络安全的影响。即模型的个体安全、模型的环境安全和模型的社会安全（网络安全）。
但AI 安全并不只局限于这三个独立的板块中。举个形象的例子，网络世界中，数据如同水源，水源存在在海洋、河湖、冰川雪山中，但水源也流通在一道道细密的河流之中，而往往严重的污染就在某一个河道密集的交汇节点发生。
同理，每个模块都需要进行连接，而正如同人的关节最脆弱一般，往往模型的部署、模型的应用环节也是最容易受到安全攻击的环节。
我们将以上的3个板块、5个环节中的AI安全细节进行有选择的展开，形成了一张《AI 安全产业架构图》，但需要注意的是，属于大模型公司和云厂商等大型公司的机遇等，这些对一般创业者影响不大的机遇并没有再次罗列。同时，安全 for AI是一个不断进化的过程，今天的技术仅仅是刚刚迈出的一小步。

文章插图
▲（图片为自象限原创，转载请标明出处）
在整个AI 安全中，数据安全贯穿了整个周期。
数据安全通常指用于保护计算机计系统中数据不因偶然和恶意的原因遭到破坏、更改和泄露的安全工具，以确保数据的可用性、完整性和保密性。
统筹来看，数据安全产品不仅包括数据库安全防御、数据防泄露、数据容灾备份及数据脱敏等，也涵盖关注云存储、隐私计算、数据风险动态评估、跨平台数据安全、数据安全虚拟防护、数据合成等前瞻领域，因此从企业视角围绕数据安全建设整体安全中心、在供应链视角推动数据安全一致性保障，将会是应对企业供应链安全风险的有效思路。
举几个典型的例子：
为了保证模型的“思想健康”，用来训练模型的数据不能夹带危险据、错误数据等脏数据，这是保证模型不会“胡说八道”的前提。据「自象限」参考论文，目前已经有“数据投毒”，攻击者在数据源中添加恶意数据，干扰模型结果。
所以，数据清洗就成为了模型训练前的一个必要环节。数据清洗是指发现并纠正数据文件中可识别错误的最后一道程序，包括检查数据一致性、处理无效值和缺失值等。将清洗后的干净数据“喂”给模型，才能保证健康模型的生成。
另一个方向是大家都异常关心的，在上一个网络安全时代就被广泛讨论，数据隐私泄露问题
你一定经历过在微信中和朋友们聊天聊到某商品，打开淘宝和抖音就被推送该商品，在数字化时代，人几乎就是半透明的。而在智能化时代，机器变的更聪明，有意的抓取和诱导将会把隐私问题再次推向风口浪尖。
隐私计算是解决问题的方案之一。安全多方计算、可信执行环境、联邦学习是目前隐私计算的三大方向。隐私计算的方法有很多种，比如为了保证消费者的真实数据，为1个真实数据配备99个干扰数据，但这会大大增加企业的使用成本；再比如将具体的消费者模糊成小A，使用数据的公司只会了解到有一位消费者为小A，但并不会知道小A背后对应的真实用户是谁。