基于密集行为的欺诈检测算法-LockInfer( 四 )


基于密集行为的欺诈检测算法-LockInfer

文章插图
 
密 度:高密度是指新注入的粉丝关注90%的对应的注入的偶像;低密度是指比例为50% 。
伪 装:伪装是让注入的粉丝关注0.1% 额外的偶像;如果没有伪装 , 那么它只关注对应的偶像 。
伪知名:伪知名是让注入的偶像还会被0.1%额外的粉丝关注;如果没有伪知名 , 那么它只被新注入的粉丝关注 。
在上图的中间和右侧分别给出了左奇异向量和右奇异向量构成的特征子空间 。于是能看到不同类型的非重合密集行为存在下述的可疑踪迹:
规则 1 (短 “镭射线”):如果注入粉丝的密集行为非常紧密 , 邻接矩阵中会有一个或者多个密度高达90%的不重合块 。特征子空间图会展现出短 “镭射 线”:向原点延伸过去的贴近轴的线状密集点集 。
规则 2 (长 “镭射线”):如果注入的粉丝行为密集 , 但较为松散 , 邻接矩阵中有若干个密度为 50%的不重合块 。特征子空间图展现出长 “镭射线”:镭射线会贴近轴 , 并且向原点伸长 。
规则 3 (旋转的 “镭射线”):如果注入的粉丝有 “伪装” 或者是注入的偶像有 “伪知名” 的问题 , 邻接矩阵会在密集块以外形成稀疏的额外链接 。和规则 1、 2 不同的是 , 向原点延伸的镭射线会以某个角度旋转 , 叫做旋转的 “镭射线” 。
另一方面 , 如果注入的粉丝密集地关注对应的偶像集合 , 这些偶像集合存在 部分的重合 , 称之为部分重合的密集行为 。仿真数据是在随机图中注入3个粉丝集合Fi (i = 1,...,3)和5个偶像集合Ei (i = 1,...,5) 。每一个粉丝集合都含有1000个粉丝 , 每一个偶像集合都含有10个偶像 。F1 的粉丝集合关注集合 E1 到 E3 的偶像;F2 的粉丝集合关注集合 E2 到 E4 的偶像;F3 的粉丝集合关注集合 E3 到 E5 的偶像 。图5.8中可以看到邻接矩阵和特征子空间之间的关系 。
规则 4 (“珍珠状”):重合的密集行为在邻接矩阵中形成 “阶梯状” 块 , 因为粉 丝集合会连接若干个偶像集合 , 多个密集块之间是存在重合的 。特征子空间 中显示出离原点距离相近的球状 , 或者叫 “珍珠状” 的点簇 。
图5.8(b) 给出 3 组 F1 到 F3 的粉丝集合在特征子空间中形成的3个点簇构成的珍珠状 。图5.8(c) 给出 5 组 E1 到 E5 的偶像集合在特征子空间中形成的5个点簇构成的珍珠状 。具有相近的或者是重合的偶像的注入粉丝会在特征子空间中靠近 。
规则 4 (“珍珠状”): 三个部分重合的密集块形成的 “阶梯状” 块 。
基于密集行为的欺诈检测算法-LockInfer

文章插图
 
图5.8
五、基于特征子空间的密集行为检测算法实现本工作中所给出密集行为的检测算法 LockInfer 有下面两个步骤:
种子选取: 根据上一个小节给出的规则1到4 , 选择具有密集行为的粉丝节点 , 并叫做 “有密集行为” 的粉丝 。
密集值传递: 在粉丝集合和偶像集合之间传递 “有密集行为” 的值 , 简称密集值 。每次用高于密度阈值定理给出的密度阈值 d选取有密集行为的粉丝用户 , 去掉并不足够密集的用户 , 接下来是对偶像集合做同样的处理 。
算法 7中还给出了每一步骤的细节
基于密集行为的欺诈检测算法-LockInfer

文章插图
 
LockInfer可以从任意种子节点集合出发 , 甚至随机选取的节点 。然而认真选取种子节点能加快检测速度 。如下线索指出如何找到合适的种子:选择出度在尖峰处的粉丝 , 但出度在尖峰处的节点大多数实际上正常 。用之前所给出的规则集合来选取粉丝 , 后续会证实这是非常有效的 。
当然 , 如果采用额外信息 , 比如 IP地址、个人信息等内容 , 可以用这些额外 信息来选择可疑节点 , 例如 , 大量的可疑粉丝会设置自己的生日为同一年的第一 天 , 都是男性 , 都来自同样的城市 。然而 , 如果没有额外信息 , LockInfer 还是能 够从规则中有效选取种子 。
图5.9给出找到种子的步骤方法 。种子选取的算法有三 个步骤 , 如下:


推荐阅读