前言上一篇文章给大家带来了GraphEmbedding技术中的代表算法Deepwalk , 今天给大家介绍graphembedding又一代表算法——LINE,LINE(large-scaleinformationNetwork , 大规模信息网络)致力于将大型的信息网络嵌入到低维的向量空间中 , 且该模型适用于任何类型(有向、无向亦或是有权重)的信息网络 。 并提出了一种解决经典随机梯度下降限制的边缘采样算法 , 提高了算法的有效性和效率,且在应用方面更广 。 总结下来LINE有以下几个特点或者优势:
(1)适用广 , 适合任意类型的网络 , 不论是有向图还是无向图还是带权图 。
(2)信息全 , 目标函数(objectivefunction)同时考虑了网络局部特征和全局特征 。
(3)效率高 , 提出一种边采样的算法 , 可以很好地解决SGD的效率问题 。
(4)时间快 , 提出了十分高效网络表示方法 , 在小时范围内的单机节点上学习百万级顶点网络的表示 。
下面一下来看看这篇文章吧 。
重要定义了解LINE算法之前需要了解一下论文里面的几个重要概念 。
信息网络
信息网络定义为G=(V,E)其中V是顶点集合 , 顶点表示数据对象 , E是顶点之间的边缘的集合 , 每条边表示两个数据对象之间的关系 。 每条边e(E)表示为有序对e=(u,v) , 并且与权重Wuv>0相关联 , 权重表示关系的强度 。 如果G是无向的 , 我们有(u,v)!=(v,u)和Wuv=Wvu;如果G是有向的 , 我们有(u,v)!=(v,u)和Wuv!=Wvu,一般情况下我们认为权重非负 。
一阶相似性
网络中的一阶相似性是两个顶点之间的局部点对的邻近度 。 对于有边(u,v)连接的每对顶点 , 该边的权重Wuv表示u和v之间的一阶相似性 , 如果在u和v之间没有观察到边 , 他们的一阶相似性为0 。
二阶相似性
二阶相似性指的是一对顶点之间的接近程度(u,v)在网络中是其邻域网络结构之间的相似性 。 数学上 , 让
大规模信息网络嵌入
给定大网络G=(V,E) , 大规模信息网络嵌入是将每个顶点v(V)表示为低维空间(d)中的向量 , 学习一个函数:
以上图为例:一阶相似性表示两个顶点直接相连 , 比如6和7两个顶点 , 它们就是相似的;二阶相似表示两个两个顶点有相同的连接顶点 , 比如5和6虽然不直接连接 , 但是同时和1,2,3,4相连 , 所以5和6是相似的 , 这和协同过滤是不是很像 , 说白了就是根据图结构来表达顶点间的相似度 。
算法介绍一阶相似性
对每个无向边(i,j) , 定义顶点vi和vj的联合概率分布为:
推荐阅读
-
-
俄罗斯|俄罗斯拍的赛博风格短片 竟然想把屎拉进黑洞里?
-
『鸽子』要想养好鸽子,先学会搭配饲料,成为真正的养鸽高手,值得收藏
-
『美股研究社』谷歌何时能收复失地?,今年迄今下跌16%
-
【筷不离手】今日分享:湖南名菜“血鸭”做法,正宗地道口味!
-
-
-
央视网|新增确诊超1.8万例,美国新冠死亡病例突破11万
-
北青网|雀巢将聚焦高端水和功能水产品 或出售在华水业务
-
逄逄探视记|缘分与桃花完美落幕,收获真爱的四大生肖,在9月下旬
-
小新星座说|再也难以信任的四大星座,看似无情,实则是重情到极致,失望一次
-
互联网演义厅 最终可能会由RPA完成,苹果手机快捷指令背后的人机协同大布局
-
虎扑|桑切斯可能缺席接下来两场比赛,罗体:大腿伤势
-
「生活小咖」吃萝卜还是老做法?教你做一道新菜,吃一次就爱到
-
网易科技|百度"好看视频"升级为短视频业务部 原西瓜视频宋健负责
-
广州|你还敢用电吗?7月电费普遍暴涨4.3倍,供电局:正常涨幅
-
李荣浩|田静发文暗讽家人被攻击,这几天醒来像被打了一样,让她深有体会
-
央视新闻客户端▲均由满洲里市口岸入境,内蒙古新增3例境外输入病例
-
fun娱乐|明星录节目多吃亏?杨超越昂贵牛排被何炅分掉,她的反应都懒得装
-