您好,欢迎来到华佗健康网。
搜索
您的当前位置:首页一种新的基于标签传播的重叠社区发现算法

一种新的基于标签传播的重叠社区发现算法

来源:华佗健康网
・60・ 软件导刊 2015正 CPM算法是一种派系过滤算法,主要通过寻找K clique派系社区对社区进行划分。虽然CPM能够发现重 叠点,但该算法在实际应用中依赖参数K的选取,不同K 值导致划分出来的社区结构有很大差别。因此,在实际应 用中存在一定局限性。同样地,EAGI E和GCE算法是 CPM的改进算法,存在同样的局限。 基于合并社区核心和扩展社区的算法需要人为指定 两个参数,这两个参数需要先验知识,和具体网络相关并 影响社区发现结果的好坏。 基于标签传播的算法是一类具有接近线性时间复杂 度的算法,该算法的优点是计算过程简单,计算速度快,而 它的缺点是算法稳定较差,每次运行的结果可能都不一 样。本文提出一种新的标签算法,该算法对COPRA算法 的初始化过程和随机选择过程作出了改进,从而大大提高 算法的稳定性。 2标签传播算法 本文重点对标签传播算法中的cOPRA算法进行改 进,故简要介绍标签传播思想和LPA算法,并分析COP— RA算法与LPA的区别。 2.1算法思想 标签传播算法最早由zhu等 于2002年提出,是 基于图的半监督学习方法,其基本思想是通过标记节 点的标签信息预测还未标记节点的标签情况。节点之 间的标签传播主要依照标签相似度来进行,在传播过 程中,未标记的节点根据邻接点的标签情况来迭代更 新自身的标签信息,如果其邻接点与其相似度越相近, 则表示对其所标注的影响权值就越大,邻接点的标签 就更容易进行传播。 图3为标签传播过程。每个顶点都有一个唯一的标 签作为社区标识,对图中所有的顶点进行标签迭代更新。 在迭代过程中,每个顶点标签为其邻接点中出现次数最多 的节点的标签。如果多个标签的数量都是最大值,则随机 选择一个作为该顶点的标签。经过若干次迭代,最终形成 一个完全连通图(代表一个社区),并且该图内所有顶点都 拥有相同标签。 图3标签传播过程 2.2 LPA算法 LPA算法基于标签传播算法思想来发现社区结构。 该算法由Raghavan 提出,根据每个节点邻接点的社区 情况来选择所要加入的社区。其主要思想是起初每个节 点拥有的标签,每次迭代中对于每个节点将其标签更 改为其邻接点中出现次数最多的标签,如果这样的标签有 多个,则随机选择一个。通过迭代,直到每个节点的标签 与其邻接点中出现次数最多的标签相同,则达到稳定状 态,算法结束。此时具有相同标签的节点即属于同一个社 区。 LPA算法的执行步骤: (1)初始化过程即为网络中的每个结点分配一个唯一 的标签,对于节点X,有 (O)一 。 (2)设置t一1。 (3)将网络中的节点随机排序,假设顺序为X。 (4)对X中每个节点X,将X的标签设置为新的标签 ( )一_厂(C ( )…,C ,C (t一1)),f函数返回节点X 的邻接点中出现次数最多的标签。如果有多个,则随机选 择一个。 (5)如果每个节点的标签都与其邻接点中出现次数最 多的标签相同,则算法结束,否则设置t—t-I-1,返回步骤 3继续执行。 2.3 COPRA算法 LPA算法虽然有很多优势,但无法挖掘出重叠社区 结构。对此,Stevel5 基于原先的算法,引入了新的标签结 构(C,b),对每个节点X, ∈G(z),都拥有这样的标签。 其中,C表示社区标识符,b表示节点z在社区C中的从属 系数,且0≤b≤1。 COPRA算法的执行过程如下: (1)初始化,对任意的节点z,z∈G( )分配一个唯一 的标签(C ,1)。 (2)节点z根据其邻接点集的标签情况更新自己的标 签。如果有多个可选标签,算法会随机选取其中的7J个标 签作为结果。其中,0<l c( )l≤ 。节点的从属系数 符合如下表达式:>:b一 ( ,z)一1,其中c(z)表示节点 c EC(x) z可能属于的社区集合。 (3)如果每个节点的标签都与其邻接点中出现次数最 多的标签相同,则算法结束,否则返回步骤2继续执行。 (4)将具有相同社区标签节点合并为同一社区。 3社区质量评价指标 对于社区发现算法所产生的社区,需要通过量化指标 衡量其质量好坏,从而进一步评估各种社区发现算法的优 劣。Newman和Girvan 提出了一个评价社区质量的指 标,称之为模块化度量Q。考虑某种划分形式,将网络划 第4期 沈海燕,李星毅:一种新的基于标签传播的重叠社区发现算法 ・61・ 分为K个社区。令e 为网络中连接社区i到社区 的顶 点之间边的一半,对角线元素为e ,则对角线上的各元素 之和为丁r 一>:一 e ,表示网络中连接某一个社区内部各 个节点的边在所有边的数目中的比例。。 : :e 为每行 (或者每列)中各元素之和,表示与第i个社区中的节点相 连的边在所有边中的比例。在此基础上,用下式来定义模 块性的衡量标准: Q一>:( 一n )一"/r'e—l lP l l(1) 其中,II ll表示矩阵 中所有元素之和。式(1)表 示在同样社区结构下,网络中连接两个同类型的节点的边 的比例减去任意连接这两个节点的边的比例的期望值。若 社区内部边的比例小于或者等于任意连接时的值,则Q为 0。Q的上限为1,Q越接近1,说明社区结构越明显。实际 上,该值通常为0.3~0.7。 Q函数只是用来评价非重叠社区结构的指标。Shen 等口 对Q函数作了扩展,得到一种可以用来评价重叠社 区结构的指标一EQ函数,其公式为: EQ一 ~ ] (2) 其中, 是节点v可以同时从属的社区数目,A表示 由网络转换而成的邻接矩阵。 4算法改进 根据上述LPA算法和COPRA算法描述,可以看出 算法标签初始阶段是给网络中的所有节点分配唯一的标 签,此后标签会不断更新,网络规模越大,更新标签所需要 的资源消耗就越大。在标签更新阶段,如果存在多个标签 可选,则进行一次随机选择,这样导致算法的结果非常不 稳定。鉴于上述缺点,本文对cOPRA算法标签初始化和 标签选择进行改进。 4.1标签初始阶段 对标签的初始化主要是借鉴CPM算法中Clique思 想。Clique代表网络中完全子图,用完全子图来代替大量 的节点。这样就不需要对所有的节点进行处理,只要对每 个完全子图分配标签。 标签预处理算法步骤如下: (1)初始化节点数据。 (2)遍历节点,根据邻接点依次寻找网络中K—Clique, 在此过程中,对从属于完全子图的节点进行标注,以防完 全子图出现重叠节点。 (3)对所发现的完全子图按综合度数排序,按照排序 在标签传播过程中优先处理。 (4)为每个Clique和剩余节点分配一个唯一的标签。 4.2标签选择过程改进 COPRA算法第二步涉及随机选择,可以将此随机选 择进行弱化,本文主要引入标签影响值来进行弱化。 对每一个标签节点进行标签更新时,若其邻接点都没 有标签,则不进行更新。若其邻接点中有标签存在,则在 所有邻接点上的标签组成的集合中,选择其中一个作为z 的标签。影响z的因素有:每个标签存在的个数;所在边 的权重以及其所在邻接点的度。综合考虑这些因素的影 响力及其主次关系,最终提出将平均权重作为影响标签选 择的主要因素,邻接点的度作为次要因素。 对 邻接点中出现的每一个标签z进行标签影响值 influence(z)的计算,其定义如下: influP fP(z)==— +(1——g一∑ (‘ )(3) 其中,z∈L,硼(z )表示每一个标签为z的顶点所在 边的权重值;c(z)表示标签z的总个数;>:d(1 )表示所 有标签为z的顶点度之和。 假设边的权重为正整数,则 >1,而1一 ∑ <1。因此,比较两个标签时,若平均权重的差值 大于1,则平均权重起主要决定作用;若值小于1,则由平 均权重和顶点之和共同决定。故对于一个顶点32,其标签 为: Label(z)一argmax (4) inf ‘g cg(z)==argr】nax[ 十(1——e∑ c‘ )](5) 5实验验证与分析 本文实验硬件环境为:Pentinum(R)双核2.7GHZ处 理器,4G内存,算法具体实现语言为JAVA。 5.1基准测试集 为验证算法的有效性,将该算法应用到Zachary’S Karate Club Network㈣和Dolphins Social Network 两 个真实网络中。 5.1.1 Zachary’s Karate Club Network 在复杂网络社区结构研究中,该网络经常被使用,它 反映一所大学空手道俱乐部成员之间的关系。该数据集 包含34个节点,78条边,其中节点表示俱乐部的成员,边 表示成员之间的关系。 从表1可以看出,由于网络社区规模小,因而基于标 签传播的重叠社区算法并不能表现出优势。不仅如此,在 速度上反而还要低于CFinder算法,而且这3种算法挖掘 出的社区质量也没有明显的差别。 表1 Karate数据集测试结果 ・62・ 软件导刊 2015往 5.1.2 Dolphin social network 该数据集为Lusseau等对新西兰海域一个有62个成 员的宽吻海豚社会网络进行长达7年(1995年到2001 年)观测后给出的宽吻海豚社会网络。该网络具有62个 节点,159条边。 通过表2可以看出,本文新算法发现社区的模块化度 量值比原始算法有所提高,新算法所发现的社区质量有所 提高。当网络越复杂时,该优越性表现越明显。 表2基准测试集中的模块化度量EQ 5.2抓取数据集 抓取到的数据集为Leskovecsc等 从Arxiv网站上 抓取的关于广义相对论和量子宇宙学主题的论文集合,论 文作者为图的顶点,作者之间的合作关系为边。该数据集 总共有5 242个顶点和14 484条边。 通过表3可以看出,在处理大规模数据集时,本文算 法无论是在执行效率上还是挖掘精度上较之原有的COP— RA有明显的优势。 表3 Arxiv数据集上的测试结果 6 结语 本文主要采用标签传播的思想从标签初始化和标签 选择两个方面针对原有COPRA算法进行改进。通过在 初始阶段对标签的预处理过程来减少初始化的数目,从而 提高算法执行效率;在标签选择过程中引入标签影响值来 弱化随机选择,使得算法更加稳定。实验结果表明,改进 后的算法提高了算法稳定性,不仅能够成功挖掘出具有较 高质量的社区,而且还能挖掘出重叠社区结构。 本文仅仅从标签初始化和标签选择两个方面对算法 作了改进。对于标签传播的方式却未作出考虑。将从这 方面对算法作进一步改进,以得到更具优势的算法。原有 COPRA算法采用同步的方式,较之异步方式存在震荡的 问题。可以考虑将这两种方式进行综合得到新的传播方 式。 此外,在重叠社区结构发现方面,可以考虑将现有的 层次发现算法和重叠社区算法相融合,得到层次性重叠社 区发现算法,较之单一的重叠社区算法所挖掘出的社区更 加真实。 参考文献 [1] 汪小帆,李翔,陈关荣.复杂网络理论及其应用[M]. 北京:清华大 学出版社,2006,162 191. [2]TRAUD A L,KELSIC E D,MUCHA P J,PORTER MA.Compa— ring community structure to characteristics in online collegiate so一 cial networks[J].SIAM Rev,2011,53(3):526—543. [3]PALI A G,DERENYI I,FARKAS I,et a1.Uncovering the over— lapping community structure of complex networks in nature and so— ciety[J].Nature,2005,435:814—818. [4]RAGHAVAN U N,REKA A,SOUNDAR K.Near liner time algo— rithm to detect community structures in large scale networks[J]. Physica1 Review E,2007,76:36—106. [5]GREGORY S.Finding overlapping communities using disjoint com— munity detection algorithms[J].Studies in Computational Intelli gence,2009,207:47—62. [6]HUAWEI SHEN,et a1.Detect overlapping and hierarchical corn— munity structure in networks[J].Physical A:Statistical Mechanics and its Applications Volume 388,Issue 8,15 April 2009:1706— 1712. [7] C gEE,F REID,A MCDAID,et a1.Detecting highly overlapping community structure by greedy clique expansion[c].Tech.Rep. arXiv,2O10. [8] s MING—SHENG,C DUAN—BING Z,TAO.Detecting overlapping communities based on community cores in complex networks[J]. Chinese Physics Letters,2010(27):58-901. [9] ZHU X JIAO—JIN,GHAHRAMANI z.Learning from labeled and unlabeled data with label propagation,CMU—CAI D[R].Pitts burghers:Carnegie Mellon University,2002:2-107. [io]XIE JIE—RUI,SZYMANSKI B.Community detection using a neighborhood strength driven label propagation algorithm[c]. Proc of IEEE Network Science Workshop,2O11:188—195. [11]KIM Y,JEONG H.The map equation for link community[J]. Physica1 Review E,2011,84(2):26—110. [121 NEWMAN M,EJ GIRVAN M.Finding and evaluating community structure in Networks[J].Physical Review,2004(69):26 i13. r i 31 ZACHARY W W.An information flow mode1 for conflict and fis— sion in small groups[J].Journal of AnthrOpol0gica1 Research, 1977,33(4):452-473. [14]DAVID LUESSEAU,KARSTEN SCHNEIDER,OLIVER J BOISSEAU,et a1.The bottlenose dolphin community of Doubt— ful Sound features a large proportion of long—lasting associations [J].Behavioral Ecology and Sociobiogy,2003(54):396—405. [15]LESKOVEC J,KLEINBERG J,FALOUTSOS C.Graph evolu tion:densification and shrinking diameters[J].ACM Trans on Knowledge Discovery from Data(ACM TKDD),2007,1(1):1— 40. (责任编辑:陈福时) 

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- huatuo0.com 版权所有 湘ICP备2023021991号-1

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务