基于密集行为的欺诈检测算法-LockInfer( 三 )


1、密集块定义
用 (S , T ) 表示源节点集合 S 与目标节点 T 形成的子图 。通过节点重排序之后 ,  邻接矩阵中就会出现 “块” 的形状 。用 d(S , T ) 表示块密度即非零值比例 。那么密 集块可疑定义为实际密度比均一假设下要高的块 。正式的定义如下:
密集块:在邻接矩阵 A(大小为 M×N , 密度为 D) , 一个大小为 m×n 的块 (S , T ) 可以被叫做 “密集块” , 当且仅当密度 d(S , T ) 比均一密度

基于密集行为的欺诈检测算法-LockInfer

文章插图
 
要高 , 即d (S,T)>=
基于密集行为的欺诈检测算法-LockInfer

文章插图
 
直觉上理解这个定义是说 , 大又密集的块表示了密集行为 , 所以看上去非常可疑 。密度阈值
基于密集行为的欺诈检测算法-LockInfer

文章插图
 
可以被如下估计 。
基于密集行为的欺诈检测算法-LockInfer

文章插图
 
如果粉丝集合F存在着密集关注偶像集合E的利益驱动的动机 , 那么他们也可以进行 “伪装” , 也就是关注额外的一些不在集合E中的用户;
k维度的奇异值分解(SVD)是把形式为 A = UΣVT 的矩阵因子化 , 其中 Σ 是由前 k 大的奇异值组成的、大小为 k × k 的对角矩阵 , U 和 V 是大小为 N × k 的 正交矩阵 , 其中分别包含左奇异向量和右奇异向量 。un,i 是矩阵 U 的第 (n,i) 个元 素 , 相似的 , vn,i 是矩阵 V 的元素 。un,i 是第 n 个粉丝在第 i 个左奇异向量中的值 。定义 (i, j)-左特征子空间图为点集 (un,i, un, j) 形成的散点图 , 这就是 N 个粉丝的第 i 和第 j 个左奇异向量的映射 。可以同样定义 N 个用户作为被关注人的情况 , 所以 (i, j)-右特征子空间图就是点集 (vn,i, vn, j) 的散点图 。这个图能够可视化所有点 , 如果恰当使用 , 是可以解释很多邻接矩阵的内在性质的 。
如同在图5.5(a-b) 中介绍的 , 给定一个随机幂律分布图 , 特征空间会是在原点周围的一些云一样的点集合 。然而 , 在腾讯微博数据中看到了如镭射线状和珍珠 状的特别形状 。
是什么样的用户行为导致了这些特别形状在特征子空间中出现?
简短的答案是不同种类的密集行为 。
接下来会详细介 绍密集行为类型和这些特征形状之间的关系 。在枚举所有密集行为的类型 , 首先要给出 “伪装” 和 “伪知名” 的概念 。
如果粉丝集合F存在着密集关注偶像集合E的利益驱动的动机 , 那么他们也可以进行 “伪装” , 也就是关注额外的一些不在集合E中的用户;
那些E中的用户也可能会 “伪知名” , 也就是被一些额外的不在集合F中的粉丝关注 。
2、构造仿真数据
根据这些概念可以构造仿真数据研究密集行为 , 首先产生一个大小为1M×1M 的随机幂律分布图 , 然后注入两组不同的存在密集行为的粉丝集合 。细节上说 ,  注入集合 F1(50个新的粉丝)一起关注集合 E1(50个新的被关注的人) 。相似地 , 注入另一组集合F2一起关注集合E2 。下图中左侧用黑点画出邻接矩阵中的非零元素 , 能看到两个大小为 50 × 50 的非重合密集块 , 不重合的密集行为的属性设置如下:
规则 1-3 (“镭射线”):邻接矩阵中不重合的密集块 。
规则 1 (短 “镭射线”): 两个密集块 , 90% 的高密度 , 不含 “伪装” , 不含 “伪知名”
基于密集行为的欺诈检测算法-LockInfer

文章插图
 
规则 2 (长 “镭射线”): 两个密集块 , 50% 的低密度 , 不含 “伪装” , 不含 “伪知名”
基于密集行为的欺诈检测算法-LockInfer

文章插图
 
规则 3 (旋转的 “镭射线”): 两个密集块 , 含有 “伪装”, 不含 “伪知名”
基于密集行为的欺诈检测算法-LockInfer

文章插图
 
规则 3 (旋转的 “镭射线”): 两个密集块 , 含有 “伪知名”, 不含 “伪装”


推荐阅读