陈根:隐私保护之痛下,隐私计算将成数据价值释放突破口

文/陈根
随着云计算、物联网与大数据等技术的不断发展 , 信息系统服务中针对用户数据的收集整理、分析预测手段不断成熟 。 各种基于位置跟踪、行为偏好记录所产生的定向服务 , 为人们日常生活提供诸多便利的同时 , 也越来越多得引发了隐私关注 。
一方面 , 人们通过社交媒体进行信息交换与自我表露 , 在网购平台进行购买行为 , 利用智能交通系统实现实时路况查询 。 在参与这些在线服务的过程中 , 产生的大量数据让人们不可避免地面临隐私泄漏问题 。
另一方面 , 数据作为现代商业与个人的核心价值与重要资产 , 正在重新塑造人类生活的方方面面 。 IDCResearch统计 , 2019年大数据和分析市场的销售收入约为1870亿美元 。 但由于数据本身可复制 , 易传播 , 一经分享无法追踪 , 数据资产的确权困难 。 随着数据隐私监管日益加强 , 商业化被严重制约 。
正是在这样的背景下 , 隐私计算站在了隐私保护的“风口”上 。
陈根:隐私保护之痛下,隐私计算将成数据价值释放突破口
文章图片
隐私保护之痛
数字经济时代下 , 数据作为生产要素的重要性日益凸显 。 加上数据的频繁泄露 , 数据隐私安全成了时下亟待解决之痛 。 而现有的隐私保护主要从信息处理过程中的隐私保护、隐私度量与评估两个方面入手 。
从信息处理过程中的隐私保护方法来看 , 主要分为访问控制技术方法、信息混淆技术方法、密码学技术方法三类 。
访问控制技术通过制定信息资源的访问策略以保证只有被授权的主体才能访问信息 , 从而实现信息的隐私保护 。 近年来 , 多个基于访问控制的隐私保护方案相继提出 。 比如 , 基于强制访问控制(MAC)模型的高可用智能卡隐私保护方案;基于自主访问控制(DAC)模型的外包数据存储隐私保护方案;基于角色访问控制适用于多场景的隐私保护的数据挖掘方法等 。
信息混淆技术是基于特定策略修改真实的原始数据 , 使攻击者无法通过发布后的数据来获取真实数据信息 , 进而实现隐私保护 。 其中 , k-匿名、l-多样性和t-近邻等多种匿名化技术通过将用户的原始数据隐藏到一个匿名空间中实现敏感信息的隐私保护 。
密码学技术是利用加密技术和陷门函数 , 使攻击者在无法获得密钥情况下不能得到用户隐私信息 。 为了保护云计算中用户的隐私信息 , 研究人员出了同态加密的概念 , 基于同态加密而构造了隐私保护的空间多边形查询方案 。
但无论是访问控制技术方法、信息混淆技术方法、密码学技术方法的隐私保护方案都主要是针对特定场景局部数据集的具体算法 , 缺少针对特定场景动态数据集的算法框架 , 更缺少适应多场景动态数据集的普适性算法框架 。 此外 , 针对多媒体数据需要多个隐私保护算法的组合 , 而目前也缺少成熟的方案 。 最后 , 将不同隐私保护算法互相叠加以获得更好保护效果的方法也有待开展研究 。
隐私度量与评估通常从披露风险和信息缺损两个角度对隐私保护的效果进行度量 。 事实上 , 现有的隐私度量都可以统一用披露风险(DisclosureRisk)来描述 , 即攻击者根据所发布的数据和其他背景知识可能披露隐私的概率 。 通常 , 关于隐私数据的背景知识越多 , 披露风险越大 。 信息缺损则表示经过隐私保护技术处理之后原始数据的信息丢失量 , 是针对发布数据集质量的一种度量方法 。
此外 , 隐私度量与评估的应用领域主要聚焦在社交网络、位置服务、云计算等方面 。 在社交网络领域方面 , 研究人员提出了针对网页搜索中基于混淆技术的隐私保护方案 , 对用户隐私进行了量化 。 在考虑用户意图不同时每个个体不同的搜索行为 , 研究者设计了一个通用性工具 , 对基于混淆技术的隐私保护方案进行隐私度量 。
陈根:隐私保护之痛下,隐私计算将成数据价值释放突破口
文章图片
在位置服务领域 , 有研究人员提出关于位置隐私保护机制的框架 。 该框架利用确定攻击模型以及敌手的背景知识 , 通过信息熵等方法来描述攻击过程的精确性、确定性、正确性 , 从而实现隐私保护效果的度量 。 在云计算领域 , 为了保护云端的数据隐私 , 有研究人员提出了一种基于单个关键字的可搜索加密方案 , 适用于多个数据所有者上传数据、多个用户访问数据的应用 。
然而 , 上述各类隐私度量方案缺乏对隐私概念的统一定义;其次 , 隐私度量随信息接收主体、拥有数据量大小以及场景动态变化 , 目前缺乏隐私的动态度量方法;第三 , 信息跨系统传播 , 缺乏不同系统隐私度量的一致性、隐私信息操作控制的形式化描述方法 , 不能支持跨平台的隐私信息交换、延伸授权等动态保护需求 。
综上所述 , 现有的隐私保护以及隐私度量方案零散孤立 , 还缺乏隐私信息操作审计和约束条件的形式化描述方法 。
尚未有将隐私保护与隐私侵犯取证追踪一体化考虑的方案 , 因此目前无法构建涵盖信息采集、存储、处理、发布(含交换)、销毁等全生命周期各个环节的隐私保护和隐私侵犯取证追踪的技术体系 。 而隐私计算的诞生则突破了现有隐私保护的局限 , 成了数字时代下隐私保护的风口 。
隐私计算离我们并不遥远
隐私作为一种敏感信息 , 是大数据的重要组成部分 , 隐私保护则关乎个人、企业乃至国家利益 。 但是 , 含有隐私的信息会在网络中传播、在各类信息服务系统中存储、处理(编辑、融合、发布和转发) 。
隐私计算是面向隐私信息全生命周期保护的计算理论和方法 , 具体是指在处理视频、音频、图像、图形、文字、数值、泛在网络行为信息流等信息时 , 对所涉及的隐私信息进行描述、度量、评价和融合等操作 , 形成一套符号化、公式化且具有量化评价标准的隐私计算理论、算法及应用技术 , 支持多系统融合的隐私信息保护 。
隐私计算涵盖了信息所有者、搜集者、发布者和使用者在信息采集、存储、处理、发布(含交换)、销毁等全生命周期过程的所有计算操作 , 是隐私信息的所有权、管理权和使用权分离时隐私描述、度量、保护、效果评估、延伸控制、隐私泄漏收益损失比、隐私分析复杂性等方面的可计算模型与公理化系统 。
从技术理论来看 , 隐私计算主要分为三大技术路线 , 即密码学、可信执行环境、联邦学习 。 其中 , 密码学是以安全多方计算(SecureMulti-partyComputation)、同态加密(HomomorphicEncryption)、零知识证明(Zero-knowledgeProof)等代表的隐私计算技术 。
可信执行环境(TEE)通过硬件技术来对数据进行隔离保护 , 将数据分类处理 。 支持TEE的CPU中 , 会有一个特定的区域 , 该区域的作用是给数据和代码的执行提供一个更安全的空间 , 并保证它们的机密性和完整性 。
联邦学习则是近些年新崛起的新兴人工智能技术 , 在2016年由谷歌最先提出 , 其设计目标是在保障大数据交换时的信息安全、保护终端数据和个人数据隐私、保证合法合规的前提下 , 在多个参与方或多个计算节点之间开展高效率的机器学习 。
不可否认的是 , 隐私计算技术路线虽有差异 , 但密码学对于隐私计算的影响依旧举足轻重 , 密码学理论研究成果也影响着隐私计算技术的进展 。
由于隐私计算不泄露原始数据 , 因此可以在保护数据安全的前提下 , 实现多个维度数据的跨界融合 。 这将有助于破解数据保护与利用之间的矛盾的优势 , 也越来越受到市场的关注 。 Gartner发布的2019年技术炒作周期(hypecycle)曲线报告中 , 就首次将隐私计算列为处于启动期的关键技术 。
隐私计算离我们的生活并不遥远 。
陈根:隐私保护之痛下,隐私计算将成数据价值释放突破口
文章图片
2016年 , 苹果公司在全球开发者大会上首次提出了差分隐私技术(DifferentialPrivacy) 。 从iOS10开始 , 苹果使用差分隐私技术 , 在个人使用模式的小样本中注入数学噪音 。 在不影响个人隐私的前提下 , 帮助发现大批量用户的使用模式 , 从而增强用户体验 。
从2018年开始 , 国内的大型科技公司接连入局 , 资本市场也保持高度关注 。 这条赛道常常被认为蕴藏着新的平台型机会——在满足数据合规的基础之上 , 谁能率先实现数据源的有效融合 , 帮助需求方高效地提取可用数据 , 进而释放数据价值 , 谁就有成为大平台的机会 。
此外 , 2016年底 , 工信部发布的《大数据产业发展规划(2016-2020年)》提出 , 支持企业加强多方安全计算等数据流通关键技术的攻关和测试验证 。 2019年9月 , 工信部发布《工业大数据发展指导意见(征求意见稿)》 , 提出在工业领域积极推广隐私计算技术以促进工业数据安全流通 。 这也足以见得隐私计算的潜力之大 。
数字价值释放的突破口
当然 , 由于隐私计算技术发展仍不完善 , 因此也面临着一些问题 。
一是隐私计算技术性能还难以满足大规模商用要求 。 虽然目前隐私计算的性能已经大大提升 , 但由于其加密机理复杂、交互次数多 , 当流通的数据量较大或结构较为复杂时 , 计算效率问题仍然未能解决 。
其中 , 在隐私信息的生命周期中 , 受益于密码学发展 , 隐私的加密化、匿名化和脱敏技术都已经非常成熟 , 可以大规模应用在隐私获取、储存、流转等环节中 。 但大数据时代的到来 , 让隐私数据的处理成为了一个难题:大规模的加密数据处理一定会导致计算性能下降 , 而非加密数据处理又极大概率会导致隐私信息的泄露 。
陈根:隐私保护之痛下,隐私计算将成数据价值释放突破口
文章图片
二是隐私计算技术市场难以迅速培育 。 相对于其巨大的市场前景 , 目前隐私计算技术的市场还远未成熟 , 市场环境的培育也具有较大的难度 。 一方面 , 由于隐私计算技术复杂且常常呈现“黑盒化”现象 , 大部分用户对隐私技术难以理解和信任 。 另一方面 , 隐私计算处理的对象往往是敏感的数据资产 , 试错成本大 , 从而更加增加了用户的接受成本 。
三是现有法律法规未对隐私计算地位进行明确定位 。 由于隐私计算仅仅避免了原始数据转移的过程 , 但仍然完成了基于多方数据的计算 , 使得其在某种程度上依然破坏了消费者的隐私 。 这也成为了制约隐私计算发展的无法回避的问题 。
【陈根:隐私保护之痛下,隐私计算将成数据价值释放突破口】但显然 , 这些技术的困境在时间的加持下终将被解决 。 事实上 , 数据隐私是进入数字社会最先需要解决的问题 。 隐私计算技术在当下恰逢其会而且前景深远 , 将为数据隐私保驾护航并创造一种全新的“数据交易”庞大市场 , 也会成为实现数据价值释放的突破口 。


    推荐阅读