互补融合|让数据不再“裸奔”,隐私计算“四小龙”亮出通关密码

当数据成为重要的生产要素 , 数据隐私保护与数据使用应该如何权衡?
今年4月 , 《中共中央、国务院关于构建更加完善的要素市场化配置体制机制的意见》(以下简称“《意见》”)发布 , 数据作为一种新型生产要素被写入国家文件中 , 与土地、劳动力、资本、技术等传统要素并列为要素之一 。
《意见》明确 , 加快培育数据要素市场 , 推进政府数据开放共享、提升社会数据资源价值、加强数据资源整合和安全保护 。
数据的价值正在被重新认识 , 那么数据的安全该如何守护呢?
数据要素时代来临 , 隐私计算迎来爆发节点
其实 , 早在去年10月—11月 , 发改委先后授牌雄安、浙江、福建、广东、重庆、四川在内的六个地区为“数字经济创新发展试验区” , 探索数字经济与各行业的融合发展 。
更早的时间 , 以微信、短视频、直播等为代表的互联网应用改变了我们的生活;以淘宝、京东、拼多多为代表的电商平台改变了我们的消费方式;以李佳琦、薇娅为代表的带货主播创新了新型商业业态;以5G、工业互联网为代表的“新基建”力量正在带动生产力的变革……
这一切的背后都是数据要素作为支撑 。
Statista数据显示 , 预计2020年 , 全球大数据市场的收入规模将达到560亿美元 , 较2018年的预期水平将增长约33.33% , 较2016年的市场收入规模翻一倍 。 全球数据量在2019年达到了41ZB , 2020年预估达到50.5ZB 。
数据价值另一面 , 数据安全、隐私保护成为与之对立的矛盾 。
小编注意到比如很多政府数据不能对外公布 , 通讯运营商、银行、互联网公司等收集到的客户数据受法律规定 , 也不能透露给第三者 , 因此数据被分割在一个个孤岛之中 , 数据之间无法互通 , 数据价值难以体现 。
然而即便如此 , 我们几乎每天都会接到各种营销电话 , 或推销房产、或推荐股票 , 在各种黑产面前 , 没有个人隐私可言 , 每年各行业曝出的数据、隐私泄露事件也层出不穷 , 公众对数据价值产生的过程产生了极大的不信任 。
数据由于具备可复制和可传播性 , 其本质上是不能被安全共享的 , 但在数据要素时代 , 我们虽然不共享数据本身 , 但数据价值应该被共享 。
为解决这个矛盾 , 隐私计算技术出现了 。
隐私计算 , 根据中国信息通信研究院的定义 , 是指在保证数据提供方不泄露敏感数据的前提下 , 对数据进行分析计算并能验证计算结果的信息技术 。
广义上是指面向隐私保护的计算系统与技术 , 涵盖数据的产生、存储、计算、应用、销毁等信息流程全过程 , 想要达成的效果是使数据在各个环节中“可用不可见” 。
说的更通俗一些 , 就是在保证数据安全的前提下 , 让数据可以自由流通或共享 , 消除数据孤岛问题 , 从而释放数据更大的价值 , 提升生产效率 , 进而推进产业创新 。
从这一点来理解 , 大数据市场规模有多大 , 隐私计算的天花板就有多高 。
为数据价值而生 , 隐私计算四小龙浮出水面
隐私计算是一门综合技术 , 具体来说 , 目前主要包括三个方向 。
其一为基于密码学的多方安全计算(MPC)技术 。 通过秘密分享、遗忘传输、混淆电路或同态加密等特殊的加密算法和协议 , 从而支持在加密数据上直接进行计算 。 理论上 , 在不考虑代价的“理想”情况下 , 多方安全计算技术能实现任意的计算“功能” , 并且达到比较高的安全性 。 但是由于数据通信量骤增 , 计算效率损失大和需要极高的算力要求等因素 , MPC的技术产品化还有一定的限制 , 相关的技术解决方正在积极探索 。
其二为基于人工智能的联邦学习技术 。 在横向维度 , 每个参与者在本地训练计算自己的样本 , 只分享模型训练的梯度;纵向维度 , 各参与者训练各自的embedding(“向量映射”) , 共同训练上层模型 。 两个维度的融合 , 从而让多个相互不信任的数据拥有方不必共享数据的基础上联合进行模型训练 。
其三为基于可信硬件的安全沙箱计算(TEE)技术 。 其核心思想是构建一个硬件安全区域 , 数据仅在该安全区域内进行计算 , 利用可信任执行环境TEE防止操作系统恶意地查看应用执行环境的内容;利用安全沙箱防止恶意应用通过特殊调用控制操作系统 。
目前业界的普遍共识是 , 要实现数据“可用不可见” , 单一技术难以独挑大梁 , 不同技术路径(密码学、人工智能、区块链等)的互补融合才是发展趋势 。
也正是在这样的背景下 , 蚂蚁金服、微众银行、华控清交、翼方健数这4个隐私计算玩家在一众竞争者中跑了出来 , 凭借着各有所长的综合解决方案成为隐私计算赛道的“四小龙” 。
比如蚂蚁金服用来做数据安全与隐私保护的TED ENGINE引擎 , 就融合了敏感数据智能打标技术(Tag)、AI安全增强技术(Enhace)和智能威胁识别技术(Detection)三项技术 。 在Enhace技术中 , 蚂蚁金服又以差分隐私和可信硬件为重点开发方向 。
此外 , 蚂蚁金服还开发了一个大规模多方安全计算商用平台——摩斯Morse , 直接向其他企业机构提供个性化的多方安全计算服务 , 解决业务实际的问题 。
微众银行在融合密码算法、隐私保护算法、安全多方计算等技术的基础上 , 开发了一套即时可用的场景式隐私保护解决方案WeDPR 。 今年的杭州区块链国际周上 , WeDPR被评为“隐私计算场景应用最具实力派” 。
另外值得一提的是 , 微众银行的联盟学习开源项目Fate还拥有联邦学习的自主知识产权 。
华控清交专攻多方安全计算 , 创始人姚期智为清华大学交叉信息研究院院长 , 也是图灵奖唯一的华人获奖者 。 多方安全计算的技术理论源于姚期智在1980年代提出的“百万富翁”设想 , 作为该理论的提出者和重要奠基人 , 致力于推动技术落地 。 其PrivPy平台实现了高性能通用的安全计算框架、集群化和可扩展的解决方案 。
翼方健数的数据隐私计算平台翼数坊则以“数据和计算的互联网”(IoDC)为核心 , 建设开放生态 , 并在厦门落地了全国首个大规模部署的隐私计算平台 , 实现数据战略从顶层设计到底层实现的“落地” 。 在平台中不光融合了自研技术 , 还集成了第三方优秀的技术方案 , 其中包括同态加密、区块链、联邦学习等 , 通过计算实现数据的打通、共享和价值实现 。
另外一个层面 , 从隐私计算应用的落地行业来看 , 金融和医疗是两个最主要的赛道 。
数据安全对于金融行业的重要性我们很好理解 , 往小了说 , 关系到我们每个人的钱袋子 , 往大了说 , 关系到国家的经济基础 , 因而我们可以看到 , 隐私计算“四小龙”中 , 蚂蚁金服、微众银行和华控清交的基本盘都在金融赛道中 。
数据安全对于医疗行业同样重要 , 清华大学软件学院副教授金涛在2019大数据产业峰会上接受媒体采访时曾表示 , 健康医疗数据不仅涉及到个人层面 , 也涉及到公共利益 , 甚至是国家安全 。 比如 , 一个人患上流行病、传染病 , 其个人数据可能涉及整个治疗方案的优化改进 , 对整个社会大众都有福祉;基因数据则可能关乎国家安全 。
翼方健数则走了与其他三家不同的路线 , 将业务重心放在对隐私计算同样有较大需求的医疗赛道中 。
这样一来就很好理解了 , 既有高人一筹的技术作为支撑底座 , 又在主要赛道中实现了抢跑占位 , 以上构成了隐私计算“四小龙”在市场竞争中的护城河 。
带来全面的数据价值 , 隐私计算还需做好三件事情
虽然目前隐私计算行业呈现出“四超多强”的竞争格局 , 但数据价值还没有被完全挖掘出来 , 隐私计算技术也还远远没有走到尽头 , 未来的数据要素时代 , 寻找全面的数据价值 , 隐私计算还需做好三件事情 。
1、业务落地:更多行业应用 , 保证数据泛化应用“鲁棒性”
隐私计算目前主要在金融、医疗和营销三个场景落地 , 在未来肯定还会渗透到更多行业和场景 , 这就要求技术要具备非常强的“鲁棒性” , 换了个环境之后 , 系统/技术还具体和之前环境里一样的能力 。
打个比方 , 一个开放的隐私计算平台 , 在某个金融机构可以很好的满足需求 , 换到另外一个金融机构后 , 同样能够快速调整 , 满足该机构的个性需求;范围再扩大一些 , 该隐私计算平台切换到医疗行业中 , 也能很好的运行 , 具有全面的能力 。
事实上 , 隐私计算“四小龙”虽然在金融和医疗两个行业重点布局 , 但他们还持续向其他行业渗透 。 以医疗为切入点的翼方健数在金融、营销、保险、政务等行业场景均有布局 , 跨行业泛数据应用的最大意义在于打破了数据孤岛 , 让数据价值得到最大程度释放 。
2、成果转化:更大范围覆盖 , 数据应用从单一企业到整个城市
目前数据流通基本都是单个企业内部“自产自销” , 通过搭建数据平台 , 对数据安全进行保障 , 但数据价值却难以输出 , 当数据孤岛被消除之后 , 数据价值应该在无限空间中流通 , 即从单一企业到所有行业、整个城市的跨越 。
城市级的落地 , 翼方健数有个可以借鉴的案例 , 他们在厦门构建了基于隐私计算技术的医疗大数据应用与开放平台 , 是目前所知首个利用隐私计算技术实现城市级应用的案例 。
更为关键的是 , 由于同一个机构可在平台上可以担任多个角色 , 比如政府机关、医疗企业等能够提供大量原始数据 , 同时对于医疗数据又有需求 , 数据价值完成了重塑 。 翼方健数在厦门的科研转在一定程度上也成为医疗数据流通产生价值的转折点 。
3、战略高度:更加开放的生态 , 在打法思维上实现升级跨越
现在隐私计算所说的业务 , 更多是针对企业的解决方案 , 数据价值单一 , 大家都知道要让数据流通起来 , 但如何流通 , 并没有明确的方向 。
在这里互联网行业常说的生态打法或许可以成为一个思路 , 无论什么东西的流通都需要在一个成熟的生态体系内 , 参与生态的各方都能从中有所获益才能让流通更有效率 , 数据流通当然也不会偏离这一规则 。
上文提到的翼方健数正在建立的“数据和计算互联网(IoDC)” , 就其打法思维上来看 , 就颇具隐私计算生态的雏形 , 其下要建立三个生态:数据互联互通的生态、数据和人工智能算法互联互通的生态、数据提供方 , 数据使用者和数据服务方共存的生态 。
根据翼方健数创始人、CEO罗震此前在演讲中披露的信息显示 , 目前翼方健数在数据生态方面已经联合了微众银行、华控清交等垂直领域的伙伴共同参与IoDC网络的构建 。
如是看来 , 开始有企业对数据生态进行深度思考和探索 , 并没有将数据价值单独拽在手中 , 而是以生态开放的方式 , 让每个生态参与者都能从中获取收益 。
众人拾柴火焰高 。
开放生态的打法不管是在技术研发层面 , 还是在市场开拓层面都更具战斗力 , 在可以预见的未来也将成为隐私计算行业的主流 。
作者:王峰 【互补融合|让数据不再“裸奔”,隐私计算“四小龙”亮出通关密码】【编辑:苏亦瑜】


    推荐阅读