第17卷第6期 2016年12月 信息工程大学学报 Journal of Information Engineering University Vo1.17 NO.6 Dec.2016 DOI:10.3969/j.issn.1671—0673.2016.06.O18 基于叠加随机游走的复杂网络节点重要度评估方法 宋 琛 ,尹 波 ,张贤坤 (1.天津科技大学,天津300222;2.66470,河北秦皇岛066102) 摘要:针对现有节点重要度评估方法排序结果不精确的缺点,提出一种基于叠加随机游走的评 估方法。首先引入随机游走算法并进行叠加改进,计算得到节点间的相似度矩阵;其次提出相 似和的概念,用以表征节点的重要度,相似和越高,表明其与越多的节点有更高的相似度,相对 而言重要度越高;最后对相似和进行排序,得到网络中节点的重要度排序。实验证明,该方法 能以较高的精度评估网络节点的重要度,获取网络中的关键节点。 关键词:节点重要度;评估;随机游走;相似和 中图分类号:TP393.02 文献标识码:A 文章编号:1671—0673(2016)06.0730—05 Node Evaluation Method Based on Superposed Random Walk S0NG Chen.YIN Bo.ZHANG Xiankun (1.Tianjin University of Science and Technology,Tianjin 300222,China;2.Unit 66470,Qinhuangdao 066102,China) Abstract:To solve the problem that the existing node importance evaluation methods could not offer accurate sorting,a node evaluation method based on the superposed random walk is proposed in this text.First,the random walk algorithm is introduced and then improved to superposed random walk. The algorithm is used to calculate the similarity matrix between nodes.Second,the concept of the sum of similarity is put forward and used to characterize the node importance.The high sum of simi— larity suggests that the node has a higher similarity with more nodes,and this node is more important in this regard.Finally,the sorting of node importance in the network is obtained by sorting the sum of similarity.Experiments show that this method carl evaluate node importance with high accuracy and thus obtain the key nodes in the network easily. Key words:node importance;evaluation;random walk;sum of similarity 虚拟与现实世界中,复杂网络跨越计算机学、 社会学、生物学、军事学等多个领域广泛存在,如微 po ̄ance evaluation)作为一个重要领域也获得了广 泛关注 。节点重要度排序的研究对于社会生 博社交网络、科学家协作网络、神经元网络、通信网 络等。基于图论,网络可以看做节点与节点间联系 的集合。拓扑结构的非均一性决定了网络中各节 点重要度的相异性,一些重要节点往往对整个网络 活的各方面有非常重要的应用价值:在协 作网络中,可以找到的头目,迅速控制并 瓦解整个组织;在战争遇敌我对峙时,寻找军事重 镇和交通要道进行重点攻击,快速获取战争主动 权;在控制人员思想的过程中,应当最先掌握活跃 分子,便于稳定全局;在谣言传播过程中,寻找散布 的拓扑稳定性和功能实现起着更重要的作用。随 着小世界特性¨ 与无标度特性 的发现,对复杂 网络的研究迅速兴起。节点重要度评估(node im. 消息的源头,迅速遏制谣言传播;在路由、铁路、科 收稿日期:2015-06—12;修回日期:2015-09-07 基金项目:国家自然科学基金资助项目(U1404604) 作者简介:宋琛(1988一),女,助理讲师,硕士,主要研究方向为社会网络分析。 第6期 宋 琛等:基于叠加随机游走的复杂网络节点重要度评估方法 731 学合作等网络中,找到核心节点、核心人物进行重 点保护,保证整个网络的稳定性。 1 研究现状 目前节点重要度评估主要有以下几种方法:① 基于节点中心性。通常使用的衡量方法有基于度 数 、介数 和流介数 等。节点的度是指邻接 节点的数量,介数是网络中所有节点对之间的最短 路径通过该节点的次数。度指标简单直观,是用来 描述节点重要度最直接的指标,但它仅仅考虑了局 部信息,更多地体现了某一节点的“号召力”,排序 往往出现偏差。介数指标主要体现节点的信息承 受和传递能力,但是时间复杂度较高,对于复杂网 络并不适用;②基于节点删除 和节点收缩 的 方法。在某些网络中,一些重要节点地位非常重 要,一旦去除,网络就无法连通,文献[8]将网络以 生成树的形式表示,根据删除特定节点后的生成树 数量评估节点的重要程度,若某个节点删除后剩余 生成树的数量达到最小值,则该节点为最重要的节 点。但该方法只能用在联通网络中,若一个节点删 除后网络不再连通,该方法将无法继续判断。节点 收缩法就是将节点与它的某个邻居节点收缩成一 个新节点,通过计算凝聚函数求解节点重要度,但 是每次收缩后都需要计算凝聚度,时间复杂度较 高。③特征向量方法 J0 J。特征向量不仅考虑了度 信息还包括邻接节点的重要度,利用节点的邻接节 点来描述节点的重要性,如果某个节点的重要度很 高,该节点只能与大量一般节点或者少数重要节点 邻接。但该方法收敛过程很慢,有时还会出现周期 性死循环。特征向量方法还包括累计提名 、 PageRank[t21LeaderRank[13_、、SALSA㈨等方法。 另外节点重要度排序上,文献[15]还提出了一种 基于节点位置的k-shel1分解法,逐层去掉度数为1 的节点及其相关联系。k-shel1分解法复杂度低,在 大型网络中得到了较多应用,但它的应用范围有局 限,划分结果过于粗糙。 为提高计算结果的准确性,本文提出了一种基 于叠加随机游走的节点重要度评估(node impor. tance evaluation based Oil the similarity using super— posed random walk)方法。根据随机游走距离公式 计算节点间的相似度矩阵,提出相似和的概念,对 节点与网络中其它各个节点的相似度累加得到该 节点的相似和,相似和越高,表明节点与越多的节 点有更高相似性,节点在网络中越重要。该算法考 虑了节点的度、邻接节点的重要性、节点间信息的 传递以及网络的整体结构,克服了传统方法的局限 性,使用范围广,评价结果更为精确。 2基于叠加随机游走的重要度排序 随机游走算法¨ (random walk algorithm)已经 广泛应用到数据挖掘、社区发现等互联网领域。为 了直观的表达节点在网络中的作用,将随机游走应 用于复杂网络节点重要度评估,提出基于叠加随机 游走的相似和(sum of similarity based on super— posed random walk)概念,表征节点的重要程度。 2.1 随机游走算法 随机游走是指基于过去的表现无法预测将来 的发展方向。随机游走不存在一个固定的模式,每 一步游走所选择的方向都是随机的,不能通过参数 或者经验值来预测游走的方向。对于一个无向无 权的复杂网络,将其抽象为具有n个节点m条边 的无向图G=( ,E),V表示节点的集合,V=( 。, V , ,…,V ),E表示节点间联系的集合,E=(e。, e。,e:,…,e ),k 表示节点i的度,即所有与节点i 直接相连的节点总数。该图的邻接矩阵用A[a ] 表示: r1,节点i和 之间有联系 l0,节点 和_『之间无联系 设定一个图上的随机游走模型:初始状态时, 将一个游走walker放置在无向图G任意节点i上, 规定walker每一步游走以相同的概率P=1/k ( 为节点i的度)到达它的任一邻居节点,以P=0跳 跃到其它非邻居节点。也就是说该模型中节点游 走时只能通过邻接节点链依次游走,不会产生跳 跃。游走时每一步的选择都与之前的路径无关, walker行走的路径是一条马尔科夫链。该模型不 仅可以很好地应用于静态网络中,对于动态网络同 样有效。图1所示为随机游走模型示意图,P为右 侧状态在下一步出现的概率。 图1中,网络的初始状态如左侧所示,将walk. er放置在节点1,节点1共有2个邻居节点,节点2 个和节点3。即节点1的度为2,walker在行走一 步时将以P=1/2的概率游走到节点2或3,以P= 0的概率跳跃到节点4。 2.2 叠加随机游走算法的相似和求解 关于随机游走相似度的衡量存在多种不同的 732 信息工程大学学报 标准,文献[17]提出了平均首次穿越时间MFTP 的概念,用walker从节点 出发第1次通过节点Y walker 数量同样为f,这种方式即为叠加随机游走(super. posed random walk)。试验中由于步数t的不同,释 放的walker数量也会不同,求得的相似度也会存 在差异,根据文献[20]中的实验结果,本文中选取 t=4来计算相似度。图2为4个walkers的叠加随 机游走释放过程示意图。 walker y ◆ ● 一 ● 一 , 暑 善walker 图1 随机游走模型示意图 所使用时间平均值来衡量节点 和Y之间的相似 度。文献[18]介绍了平均通勤时间ACT,以节点 通过Y的平均时间作为衡量标准。但这两种衡量 方式时间复杂度都很高,不适用大型网络。本文基 于文献[19]对相似度计算进行了改进。用p 表示 walker从节点 出发,游走一步到达Y的概率: = (1) 其中, 是节点 的度,o 是邻接矩阵中对应值。 用仃 (f)表示walker从节点 出发游走t步之内 到达Y的概率。7r (£)可以通过一步转移矩阵递 推得到,7r (t)是7r(t)矩阵第 列的列矩阵。7r (t)是仃 (t)矩阵第Y行的值。7r (0)是一个n 1 维的矢量,第 个值为1。P 是矩阵P的转置。 7r (t)=P 7r (t一1) (2) 用s 表示在行走t步时,节点 和Y之间的随 机游走相似度: s (£)=  ̄ll''xy(t)+ ‘7Tyx( )(3) 其中,IEI是网络中节点间的连接总数。 随机游走由于过程的绝对随机性可能会使结 果产生较大偏差。比如节点 和Y是有直接联系 的两个节点,节点 的度大于1,walker从节点 出 发,每次游走均随机选择方向。t步之后,walker可 能到达一个距离节点 和Y同样很远的位置,从而 测定节点 和Y之间的相似度很低。为解决这一 问题,以At:1接连不断的释放walker,直至第一 个被释放的walker步数为t,此时网络中walker的 释放 O 幽2叠加随机游走4个walkers释放过程 图2中walkers每一步游走1个单位距离。在 t=0时,walkerl位于释放点;t=1时,walkerl随机 沿 轴正方向行走1个单位距离,walker2位于释 放点准备出发;t=2时,walker1沿Y轴负方向第2 次游走,walker2沿Y轴负方向开始第1次游走, walker3位于释放点准备出发…, 4时,walkerl 游走4步,walker2游走3步,walker3游走2步, walker4游走1步。 为获取误差更小的结果,释放多个walker之 后,对s 相似度进行叠加: S S R ( )=一 ̄"S n W(i) (4) 对于一个固定的网络来说,其总边数l E I是固 定的,因此在计算过程中,2 I E I可以被忽略。省略 的OSRW相似度(omitted similarity based on super— posed random walk): s o s胂( )=∑..s ( ) (5) 在计算过程中,使用新的相似度公式来计算节 点之间的相关程度,生成相似度矩阵。相似度矩阵 中的每个值,代表了对应的行节点和列节点之间的 相似度。为了求得各节点的重要度,提出相似和的 概念,将各行相似度累加,生成对应节点的SSRW 相似和: s (t)=∑s ( ) (6) 第6期 宋琛等:基于叠加随机游走的复杂网络节点重要度评估方法 733 相似和不仅仅依赖于节点的某一项指标进行 判断,而是充分考虑了网络的整体结构进行综合性 评价,涉及到节点的度、邻接节点的贡献率、网络信 息传递同时考虑了节点的位置信息,可以有效地评 估节点的重要度。本文通过图3局部对称的网络 图,具体说明相似和的求解过程。 图3局部对称简单网络图 首先根据邻接矩阵计算网络的一步转移矩阵, 如图4所示。 0 1/3 1/3 l/3 0 0 0 0 1/2 0 0 1/2 0 0 0 0 l/2 0 0 l/2 0 0 0 0 l/4 l/4 1,4 0 l/4 0 0 0 0 0 0 l/4 0 1/4 1/4 1/4 0 0 0 0 l/2 0 1,2 0 0 0 0 0 1/3 1/3 0 1/3 0 0 0 0 l/3 0 1/3 0 图4一步转移矩阵P 根据递推关系式计算得到仃(t),进行进一步 计算得到叠加随机游走的05尺 相似度,相似度矩 阵如图5所示。 0 5.5694 5.5694 8.7917 2.1667 0.5972 0,3333 0.5972 5.5694 0 2.7639 6.2361 1.4722 0.4861 0.2222 0.486l 5.5694 2.7639 0 6.236 1.337 0 4861 0.2222 0.4861 8.79l7 6.2361 6.236 0 5.292 1.611 1.500 1.6l11 2.1667 1.4722 1.337 5.292 0 5.4861 3.8333 5.4861 0.5972 0.4861 0.4861 1.6ll 5.4861 0 5.1l11 3.1l11 0.3333 0,2222 0 2222 1.500 3 8333 5.1lJ1 0 5.111】 0.5972 0.4861 0.4861 1.61l 5.4861 3.1111 5.1111 0 图5相似度矩阵 按行或按列累加求得各节点的相似和,如表1 所示。在图3中节点2和3,节点6和8存在局部 对称的关系,在网络中有同等重要度,求得的相似 和这两对节点也分别相同。 表1 网络中8个节点的相似和 2.3算法伪代码 根据上述分析,基于Eclipse平台使用JAVA 语言对算法进行实现,为方便后续计算过程中节点 的随机选取,算法开始时首先打乱节点顺利,按无 序状态存储无向图,在程序运行过程中无须不断获 取随机数,顺序读取节点即可。该算法的伪代码表 不如F。 算法:基于叠加随机游走的复杂网络节点重 要度评估方法。 输入:无向图G(Ⅳ,E); 输出:节点重要度排序; 初始化网络图并打乱节点shuffle(G); 以邻接矩阵形式表示无向图Mgraph; 求解一步转移矩阵P; for(int P=0;p<4;p++) 求解RW相似度; 累加RW相似度求解OSRW相似度; for(int i:0; <graph.nodes.1ength一1;i++) 计算相似和; for(int i=0;i<graph.nodes.1ength一1;£++) 对相似和进行排序; 按重要度输出节点 3 实验分析 Zachary’s karate club数据集 是应用在复杂 网络分析中的最常用的检测网络,从1970到1972 年,Wayne Zachary用3年时间观察了美国一所大 学空手道俱乐部成员间的社会关系,构造了该社会 关系网,该网络共有34个点,78个联系。每个节 点代表一名俱乐部成员。观察这些成员在俱乐部 内外的交往,构造他们之间的联系。每条联系表示 对应的两名成员之间有频繁的交往。图4为空手 道俱乐部网络结构图。 图6 Zachary’s karate club网络示意图 在调查过程中,该校校长和教练就是否提高培 训费用发生争执,俱乐部为两个派别,节点34 和节点1分别代表校长和教练,两个核心周围的成 员由于相互间关系的亲疏远近分成了两个派别。 734 信息工程大学学报 l 2 3 4 5 6 7 8 9 印们加∞∞∞∞加0 使用基于随机游走的相似和对该网络进行排序。 31与34、33、2、9有联系,二者度数均为5且处于 较为核心位置,因此这两个节点的重要度相对于其 驺3 2 4 由于网络中节点较多,图7仅画出重要度排名前 10的节点相似和。 H 9 它节点应该较高。节点24虽处较为边缘位置但其 与节点34和33都有联系,且度数是边缘节点中最 3 9 2 H高的,因此其重要度应当高于其它边缘节点。综上 所述,节点1、34、33、2、3、4、9、32、31和24应该是 加6 最重要的1O个节点。本文提出的基于随机游走相 ●3 " 9加2 4 荟 靶 排J予 图7重要度排名前10节点相似和 从图7中可以看出,基于叠加随机游走的复杂 网络节点重要度评估方法求得的重要度结果非常 精确,节点32、31以及节点24在网络中的重要度 非常相似,而该算法做出了很好的区分。为了验证 基于叠加随机游走的算法对节点重要度排序结果 的优劣,排序结果中重要度排序前10个节点与基 于度 、基于介数 、基于接近度 和基于剥落算 法 的排序方法进行比较,结果如表2所示。 表2节点重要度排序比较 黼 ,薹靠 剥薹 序, 在数据集中,节点34和1代表是社区的核心, 毫无疑问这两个节点应当是最重要的两个节点,节 点33对外联系非常多,且处在连接节点34和节点 1的中间位置,因此33的地位也非常重要。在度 排序、介数排序和本文提出的相似和排序中,节点 1、34和33都是最重要的3个节点。与实际情况 相符。节点2、3、4、9处于两个网络中的中间位置, 不仅连接了网络的核心节点,且度值高,与两个模 块中的大量节点有直接联系,因此这4个节点所处 地位应当仅次于节点1、34和33。可以看到除介 数排序无节点4外,无论使用哪种方法进行评估, 这7个节点始终毫无争议的在重要度前10的节点 之中。节点32与最重要1、34和33有联系,节点 似和的节点重要度排序方法,排序结果非常正确、 且精确度高。 3 2 M 4 9 4 结语 ● ”2 3 4 9 儿 本文针对复杂网络节点重要度评估,提出了一 种基于随机游走的新的评估方法,评估中引入了叠 加的随机游走,通过定义相似和来表征节点的重要 度。相似和全面考虑了节点的度、邻接节点的属性 以及节点在网络中的位置。实验证明,基于随机游 走相似和的评估算法可以准确地对复杂网络中的 各节点进行重要度评估。但该算法只能针对无向 无权网络进行评估,在下一步的工作中可以对有向 加权网络的节点重要度评估进行更多研究。 参考文献 [1]Watts Duncan J,Strogatz Steven H.Collective dynamics of small—world networks[J].Nature,1998,393(6684): 440-442. [2]Barabasi Albert Laszlo,Albert Reka.Emergence of scal— ing in random networks[J].Science,1999,286(5439): 509—512. [3]Albert Reka,Jeong Hawoong,Barab6si Albert Laszlo. Error and attack tolerance of complex networks[J].Na— ture,2000,406(6794):376—382. [4]Gallos Lazaros K,Cohen Reuven,Argyrakis Panos,et a1.Stability and topology of scale—free networks under at— tack and defense strategies[J].Physical Review Letters, 2005,94(10):14. [5]任晓龙,吕琳嫒.网络重要节点排序方法综述[J]. 科学通报,2014,59(13):1175—1197. 『6]Freeman Linton C.A Set of Measures of Centrality Based on Betweenness[J].Sociometry,1977,40(1):35-41. [7]Yan Gang,Zhou Tao,Hu Bo,et a1.Efficient routing on complex networks[J].Physical Review E,2006,73(4): 0461O8. [8]陈勇,胡爱群,胡啸.通信网中节点重要性的评价方 法[J].通信学报,2004,25:129-134. (下转第759页) 8 第6期 冯培义等:面向热点新闻事件的地图快速制作框架与实现 北京:中国科学技术大学,2009. 759 的时事地图[J].新闻记者,2002,7:22—23. [3]Casper Yost.Principles of Journalism[M].北京:中国传 媒大学出版社,2013. [11]屈展,李婵.JSON在Ajax数据交换中的应用研究 [J].西安石油大学学报:自然科学版,2011(01): 95.98. [4]边雪清,韩有文,王海芹.专题地图制图系统设计与实 现[J].测绘科学,2009,34(增刊):165—168. [12]刘红芝.中文分词技术的研究[J].电脑开发与应用, 2010(03):1-3. [5]徐琳.基于模板技术的应急专题地图设计与制作 [D].郑州:信息工程大学,2012. [6]Mapeas.com:在地图上“阅读新闻”[EB/OL].[2010・ 12—23].网易科技报道http://tech.163.com/10/1223/ 10/6OJ4BF4K000938EN. [13]胡锡衡.正向最大匹配法在中文分词技术中的应用 [J].鞍山师范学院学报,2008(O2):42_45. [14]黄翼彪.开源中文分词器的比较研究[D].郑州:郑 州大学,2013. [15]张晴,李玉影.概念整合理论框架下的《静夜思》意义 建构——基于ICTCLAS的分析方法[J].唐山师范学 院学报,2015(01):29—31. [7]张春菊,张雪英,朱少楠.基于网络爬虫的地名数据库维 护方法[J].地球信息科学学报,2011,13(4):492-499. [8]李志义.网络爬虫的优化策略探略[J].现代情报, 2011(10):31-35. [16]程钢.国内主流在线地图AP1分析及优化对策研究 [J].测绘工程,2013,22(6):4-8. [17]冯振兴.Ajax技术在Web系统中的应用研究[D].北 京:北京林业大学,2008. <>●<>●<>●<>●<>●<>●0●o●<>●<>●<>●0●<>●<>●<>●<>●<>●<>●<>●(>●<>●<>●<>● [9]陈千.主题网络爬虫关键技术的研究与应用[D].北 京:北京理工大学,2015. [1O]曾伟辉.支持Ajax的网络爬虫系统设计与实现[D]. 0●0●0●0●0●0●0●0●0●o●o●0●0●0●0●0●o●0●0●<>●<>0 (上接第734页) [9]谭跃进,吴俊,邓宏钟.复杂网络中节点重要度评估 的节点收缩方法[J].系统工程理论与实践,2006,26 (11):79—83. walk algorithm to calculate the density of states[J]. Physical Review Letters,2001,86(10):2050—2053. [17]HaijunZhou.Distance,dissimilarity index and network community structure[J].Physical Review E,2003,67 (6):061901. [10]Bonacich Phillip.Factoring and weighting approaches to status scores and clique identification[J].Journal of Mathematical Sociology,2010,2(1):113-120. [I 8]Luh Yen,Francois Fouss,Christine Decaestecker,et a1.Graph nodes clustering with the sigmoid commute— [11]Poulin R,Boily M C,Masse B R.Dynamical systems to define centrality in social networks[J].Social Net— works,2000,22(3):187—220. time kernel:a comparative study[J].Data knowledge bingineefing,2009,68(3):338-361. pingLiu,LinyuanLO.Link prediction based on local [19] Wei[12]Sergey B,Page L.The anatomy of a large-scale hyper・ textual web search engine[J].Computer Networks&Is・ dn Systems,1998,30(98):107-117. random walk[J].Europhys.Lett.2010,89(5)58007. Pons,Matthieu Latapy.Computing communities [2O] Pascalin large networks using random walks[J].Computer and Information Sciences—ISCIS 2005. 2006:10(2): 191.218. ion flow model for conflict [21] Zachary W W.An informat[13]Ln L,Zhang Y C,Yeung C H,et a1.Leaders in Social Networks,the Delicious Case[J].Plos One,2011, 6:e21202. [14]Lempel R,Moran S.The stochastic approach for link— structure analysis(SALSA)and the TKC effect[J]. Computer Networks,2000,33:387401. and fission in small groups[J].Journal of Anthropologi— cal Research,1977,33(4):452473. rality in social [22] Freeman Linton C.Freeman L C.Cent[15]Kitsak M,Gallos L K,Havlin S,et a1.Identification of influential spreaders in complex networks[J].Nature Physics,2010,6(11):888-893. networks conceptual clarification[J].Social Networks, 1978,1(3):215.239. [23]司晓静,复杂网络中节点重要性排序的研究[D].西 安:西安电子科技大学,2012. [16]Wang F,Landau D P.Eficifent,multiple-range random