机器之心|什么是优秀的图表示？斯坦福提出首个信息论原则——图信息瓶颈

选自arXiv
作者： Tailin Wu 等
机器之心编译
编辑：魔王
对于图结构数据而言，什么是「优秀」的表示？斯坦福研究者对此进行了重新思考，并提出学习稳健图表示的信息论原则——图信息瓶颈 (GIB) 。研究者基于该原则构建了两个 GNN 模型：GIB-Cat 和 GIB-Bern ，二者在抵御对抗攻击时取得了优异的性能。

本文插图

图表示学习旨在基于图结构数据学习表示，并用于节点分类、链路预测等下游任务。由于节点特征和图结构包含重要信息，因此图表示学习任务具备一定的挑战性。图神经网络（GNN）融合了来自节点特征和图结构的信息，因而具备优秀的性能。
近期，很多研究开始关注如何开发更强大的 GNN ，使之拟合更复杂的图结构数据。然而，目前 GNN 仍然面临一些问题。例如，邻近节点的特征包括一些无用信息，可能对当前节点的预测产生负面影响。此外， GNN 依赖于通过图的边进行消息传递，这使它容易遭受针对图结构的噪声和对抗攻击。
近日，来自斯坦福大学的研究者希望解决以上问题，并重新思考：对于图结构数据而言，什么是「优秀」的表示？具体而言，信息瓶颈 (IB) 为表示学习提供了核心原则：最优表示应包含适合下游预测任务的最少充足信息。 IB 鼓励表示最大程度地包含与目标相关的信息，以使预测结果尽可能准确（充足）。另一方面， IB 遏制表示从数据中获取与预测目标无关的额外信息（最少）。基于这一学习范式学得的模型自然而然可以避免过拟合，并对对抗攻击具备稳健性。

本文插图

论文地址：https://arxiv.org/pdf/2010.12811.pdf
项目地址：http://snap.stanford.edu/gib/
GitHub 地址：https://github.com/snap-stanford/gib
然而，将 IB 原则扩展到图表示学习的过程面临着以下两个独特的挑战：
首先，之前利用 IB 的模型假设数据集中的训练样本是独立同分布的 (i.i.d.) 。对于图结构数据而言，该假设不成立，因此按照 IB 原则训练模型较为困难；
此外，结构信息对于表示图结构数据是必不可少的，但此类信息比较分散，因而很难进行优化。如何恰当地建模和从图结构中提取最少充足信息带来了另一项挑战。
解决办法：图信息瓶颈 (GIB)
该研究基于 IB 提出了一种信息论原则——图信息瓶颈 (Graph Information Bottleneck, GIB) ，专门为图结构数据的表示学习打造。 GIB 从图结构和节点特征中提取信息，并鼓励学得表示中的信息满足最少和充分两个原则（参见下图 1）。

本文插图

为了克服非独立同分布数据带来的挑战，研究者利用图结构数据的局部依赖假设来定义最优 P(Z|D) 的搜索空间 ? ，其遵循马尔可夫链层级化地从特征和图结构中提取信息。研究者表示，这项研究为基于图结构数据的监督式表示学习提供了首个信息论原则。

本文插图

图 2：GIB 原则利用局部依赖假设。
并得到：
研究者还为 GIB 扩展了变分上下界，使其更适合 GNN 的设计与优化。具体而言，该研究提出变分上界，用于约束从节点特征和图结构提取的信息；并用变分下界来最大化表示中的信息，以预测目标。

机器之心|什么是优秀的图表示？斯坦福提出首个信息论原则——图信息瓶颈

推荐阅读

冯巩 |冯巩罕晒09年春晚红西服，十多年来仍然合身，疑似要去拍卖？

独特的乳名女孩名字大全独特的乳名女孩

新华社|脱贫的颜色--吉林延边一个少数民族村屯的国庆假期

球探体育@英雄联盟2020LPL春季赛分析：OMG战队对阵VG战队

伤感英文名字男伤感英文名

「四川」2020年度四川省氢能源与智能汽车、智能制造与机器人补充征集啦~

上海一个多月来雨量、雨日、日照等多项气象数据创历史同期极值

东方网|上海迪士尼乐园下周一起实行预约新规

违法|宋清辉：从严监管是近几年监管层主基调为中小投资者创造健康环境

数读7月23日全球疫情：全球日增确诊超29万累计逾1563万美国新增超7.1万

章鱼■人的视力在动物界什么水平？算是顶尖高手吗？

经济|评论：美联储“鸽声”乏力 “水牛”市存回调风险

|细节决定成败，这几点新手很容易忽视的问题

IT之家▲66等多款游戏本将搭载Killer E3100网卡，最高支持2.5Gbps，微星GS

事业编和公务员有什么区别？

宝马@美团：将组织全部在京外卖骑手进行核酸检测

为什么我说小沈阳参拍《孤军》是个错误

红茶和滇红有哪些区别,苏州碧螺春红茶

淮山痒怎么止痒山药痒怎么快速止痒

『手机大魔王』苹果真要小心了，诺基亚的23年！从一部手机卖出2.5亿台到衰败