1、密集块定义
用 (S , T ) 表示源节点集合 S 与目标节点 T 形成的子图 。通过节点重排序之后 , 邻接矩阵中就会出现 “块” 的形状 。用 d(S , T ) 表示块密度即非零值比例 。那么密 集块可疑定义为实际密度比均一假设下要高的块 。正式的定义如下:
密集块:在邻接矩阵 A(大小为 M×N , 密度为 D) , 一个大小为 m×n 的块 (S , T ) 可以被叫做 “密集块” , 当且仅当密度 d(S , T ) 比均一密度
文章插图
要高 , 即d (S,T)>=
文章插图
直觉上理解这个定义是说 , 大又密集的块表示了密集行为 , 所以看上去非常可疑 。密度阈值
文章插图
可以被如下估计 。
文章插图
如果粉丝集合F存在着密集关注偶像集合E的利益驱动的动机 , 那么他们也可以进行 “伪装” , 也就是关注额外的一些不在集合E中的用户;
k维度的奇异值分解(SVD)是把形式为 A = UΣVT 的矩阵因子化 , 其中 Σ 是由前 k 大的奇异值组成的、大小为 k × k 的对角矩阵 , U 和 V 是大小为 N × k 的 正交矩阵 , 其中分别包含左奇异向量和右奇异向量 。un,i 是矩阵 U 的第 (n,i) 个元 素 , 相似的 , vn,i 是矩阵 V 的元素 。un,i 是第 n 个粉丝在第 i 个左奇异向量中的值 。定义 (i, j)-左特征子空间图为点集 (un,i, un, j) 形成的散点图 , 这就是 N 个粉丝的第 i 和第 j 个左奇异向量的映射 。可以同样定义 N 个用户作为被关注人的情况 , 所以 (i, j)-右特征子空间图就是点集 (vn,i, vn, j) 的散点图 。这个图能够可视化所有点 , 如果恰当使用 , 是可以解释很多邻接矩阵的内在性质的 。如同在图5.5(a-b) 中介绍的 , 给定一个随机幂律分布图 , 特征空间会是在原点周围的一些云一样的点集合 。然而 , 在腾讯微博数据中看到了如镭射线状和珍珠 状的特别形状 。
是什么样的用户行为导致了这些特别形状在特征子空间中出现?
简短的答案是不同种类的密集行为 。
接下来会详细介 绍密集行为类型和这些特征形状之间的关系 。在枚举所有密集行为的类型 , 首先要给出 “伪装” 和 “伪知名” 的概念 。
如果粉丝集合F存在着密集关注偶像集合E的利益驱动的动机 , 那么他们也可以进行 “伪装” , 也就是关注额外的一些不在集合E中的用户;
那些E中的用户也可能会 “伪知名” , 也就是被一些额外的不在集合F中的粉丝关注 。
2、构造仿真数据
根据这些概念可以构造仿真数据研究密集行为 , 首先产生一个大小为1M×1M 的随机幂律分布图 , 然后注入两组不同的存在密集行为的粉丝集合 。细节上说 , 注入集合 F1(50个新的粉丝)一起关注集合 E1(50个新的被关注的人) 。相似地 , 注入另一组集合F2一起关注集合E2 。下图中左侧用黑点画出邻接矩阵中的非零元素 , 能看到两个大小为 50 × 50 的非重合密集块 , 不重合的密集行为的属性设置如下:
规则 1-3 (“镭射线”):邻接矩阵中不重合的密集块 。
规则 1 (短 “镭射线”): 两个密集块 , 90% 的高密度 , 不含 “伪装” , 不含 “伪知名”
文章插图
规则 2 (长 “镭射线”): 两个密集块 , 50% 的低密度 , 不含 “伪装” , 不含 “伪知名”
文章插图
规则 3 (旋转的 “镭射线”): 两个密集块 , 含有 “伪装”, 不含 “伪知名”
文章插图
规则 3 (旋转的 “镭射线”): 两个密集块 , 含有 “伪知名”, 不含 “伪装”
推荐阅读
- |四人五一钓鱼被抓,工作估计黄了,这种钓鱼行为可判刑
- 宝马M3|传M3旅行版下月公布
- 化妆|女人上了年纪,化妆只要认准“3个地方”就行,不扮嫩也有好气色
- 护肤品|真正改进肌肤的护肤品套装排行榜 丑小鸭变美女全靠这些护肤品
- 骑自行车减肥的效果有哪些
- 华为交换机如何批量进行端口配置
- 发型|五月流行发型推荐,这四种最火爆,剪完美美哒
- 阔腿裤|头发长别披着,今夏流行这“3种”扎发,简单易学,精致又好看
- 山东|山东电子健康码再“升级”:疫情防控通行证明一页显示
- 网友热议|4女子为寻刺激半夜开豪车偷菜被拘 主家拒私了:网友吐槽行为太奇葩