PlayStation 5|陈根:从数据足迹到数据指纹,网路行为下的隐秘风险

【PlayStation 5|陈根:从数据足迹到数据指纹,网路行为下的隐秘风险】PlayStation 5|陈根:从数据足迹到数据指纹,网路行为下的隐秘风险

文章图片


文/陈根
互联网时代下 , 通过网站搜集信息和资源是一件极为普遍的事情 , 通常 , 网页浏览器会记录用户访问过的网站列表 , 即网页浏览历史记录 。
然而 , 即便是这样简单的网络行为 , 都存在着隐秘的风险 。 在8月举行的USENIX会议上 , Mozilla的研究人员展示了他们对5.2万名(事先同意)的Firefox用户在两周内的浏览历史数据集进行了分析的结果 。
结果显示 , 48919份浏览资料具有可区分性 , 即99%的浏览历史是独一无二的 。 超过八成用户可通过浏览历史被识别身份 。 而且 , 只需要考虑50个最常用网站就足够 。

事实上 , 在2012年就有对用户浏览记录分析用户身份的研究 。 其中 , 研究者首先建立了一个测试网站 , 并使用CSS代码从6000个域名列表中识别出参与者访问过的网站 。 当时的研究结果显示 , 基于这6000个域名 , 参与的受试者 , 97%都形成了非常具有独特性的浏览历史 , 仅此数据就可以用来追踪确认这些参与者 。
而时下 , Mozilla这一次研究所采用的数据则更精确 , Mozilla的研究收集了5.2万名参与者的全部浏览记录 , 数据包括对66万个独特域名的3500万次网站访问 , 也是该领域规模最大的一次研究 。
参与者首先和Mozilla团队分享他们的浏览历史 , 然后 , Mozilla团队开始试验他们是否能从大量数据中重新识别出这些用户 。 结果显示 , 99%的浏览记录被发现具有独特性 , 能与用户“对号入座” 。

此外 , 2012年和2020年的两次研究对比也展示了互联网时代的变化:八年前 , 对于用户访问量最大的前50个网站 , 识别用户的准确率为38% , 对于500个网站的数据集 , 准确率为70%;今天 , 以50个网站为基础的重新识别准确率为50% , 以150个网站为基础的重新识别准确率为90% 。
伴随着5G技术的发展 , 人们创造的信息总量也以几何级数进行累积 , 研究显示 , 过去几年中人类制造的数据占整个人类历史数据量的95% , 换言之 , 大数据时代已经真正降临 。
在互联网时代的后半场 , 我们的生理信息都将进入传播渠道 , 成为5G技术下的重要信息资源 。 而通过用户浏览记录分析用户身份无疑会成为进入传播渠道的另一重要数据 , 如何规避这一数据信息下的隐私暴露风险 , 创造更好地保护隐私的路径 , 依然有待实践探索 。 但任何技术的狂想始终来自人和人性 , 人类的智慧是技术的智慧 , 也是破解技术困境的智慧 。


    推荐阅读