您好,欢迎来到华佗健康网。
搜索
您的当前位置:首页基于传染病模型的微博信息传播预测研究

基于传染病模型的微博信息传播预测研究

来源:华佗健康网
第33卷第5期 2016年5月 计算机应用与软件 Computer Applications and Software Vo1.33 No.5 Mav 2016 基于传染病模型的微博信息传播预测研究 游新年刘群 (重庆邮电大学计算机科学与技术学院重庆400065) 摘要 随着微博的爆炸武发展,微博已成为消息扩散和传播的重要平台。研究微博信息的传播对市场营销、舆情管控等方 面都具有重要意义。根据微博信息传播特点,结合传染病动力学原理,提出基于经典SIR(Susceptible—Infectious—Recovered)传染病模 型的微博信息传播预测模型。该模型考虑了微博用户转发行为对信息传播机理的影响,构建具有微博传播特性的演化方程组。实 验结果表明,该模型比SISe模型的预测误差更小,可以更准确地拟合和预测微博信息的转发数,从而预测得出微博信息的传播 趋势。 t 关键词 中图分类号微博信息传播TP393 传染病模型 转发行为 预测模型 传播趋势 文献标识码A DOI:10.3969/j.issn.1000-386x.2016.05.014 RESEARCH oN MICRoBLoGGING INFoRMATIoN DISSEMINATIoN PREDICTIoN BASED oN INFECTIoUS DISEASE MoDEL You Xinnian Liu Qun (School ofComputer sc e e and Technology,Chongqing University ofPosts and Telecommunications,Chongqing400065,China) Abstract With the explosive growth of microblogs,it has become the important platform of news pervasion and public opinions dissemination.Research on the dissemination of microblogging information is of great importance for many different fields such as marketing management and public opinions control,etc.According to the features of microblogging iformmion dinssemination and in combination with dynamics principle of infectious diseases.we present a prediction model of microblogging inf_0rrnation dissemination which is based on the classical susceptible—infectious—recovered(SIR)epidemic mode1.The model takes the influences of microblog users’reblogging behaviours on information dissemination mechanism into account,and builds an evolution equation with the characteristics of microblogs dissemination. Experimental results show that the proposed model has lower predictive error compared with SISe model,and it can fit and predict the reblogging number of microblogging information more correctly,so that predict and get the dissemination trend of microblogging information. Keywords Microblogging information dissemination Epidemic model Reblogging behaviour Prediction model Dissemination trend 性上,例如利用机器学习中的算法预测微博是否转发的问题,然 0引 言 微博作为一种迷你博客,是通过关注机制分享简短实时信 而都未能对微博信息传播趋势预测。文献[1]利用协同过滤算 法预测微博的转发预测,得出影响微博转发的主要特性是微博 的发布者和转发者的身份。文献[2]通过分析微博用户转发行 为及转发影响因素等,提出因子图模型来预测微博的转发行为。 文献[3]通过利用推文内容以及上下文特征来分析转发功能的 息的广播式的社交网络平台。用户可以通过手机短信、即时通 信、邮件、Web网页或者第三方应用即时发布信息或转发、评论 好友信息。在微博中,转发是微博信息传播的主要途径,微博信 影响因素,并且构建了转发预测模型,发现推文内容特征、URL、 标签、上下文特征、粉丝数和朋友数等是影响推问转发的重要因 素。文献[4]利用基于被动主动算法的机器学习方法预测一条 微博是否被转发。文献[5]采用分类方法预测流行微博的转发 范围。文献[6]利用机器学习中的分类算法对微博上下文特征 息通过用户之间的转发得以广泛传播。由于每个微博用户可以 在不需要发布者的同意而即时地阅读、评论和转发微博信息,使 微博信息比其他传统媒体信息传播速度更快、范围更广、效率更 高,这导致了微博惊人的发展。微博已成为中国网民的主流互 联网应用,微博中每个用户都是信息的传播源,这增加了人们获 得信息的途径。微博对于人们的社会生活影响深远,因此对微 博信息传播问题的研究逐渐成为国内外学者的关注热点,并且 的重要性进行分析,提出基于特征加权的预测模型,预测单条微 博是否会被转发来研究微博客中转发行为的问题。这些研究都 不能预测微博信息从发布之后随时问变化的转发总数和微博信 收稿日期:2014—11—18。国家自然科学基金项目(61075019);重 庆市自然科学基金项目(CSTC2014jcyjA40047);重庆市教委研究项目 (KJ1400403)。游新年,硕 生,主研领域:智能信息处理,社交网络。 刘群,教授。 深人研究微博网络信息的传播机制。这些问题的研究在市场营 销、舆情控制和热点话题发现等应用方面具有重要意义。 在微博信息传播研究中,如何预测微博信息传播趋势是现 在需要解决的问题。虽然现在很多研究集中在基于微博各种特 计算机应用与软件 息传播趋势,只是简单地预测微博信息是否被转发的问题。也 有一些学者,发现微博信息传播过程与传染病传播过程具有相 2016卑 应用到微博信息传播研究中。其中微博信息传播与传染病传播 类比关系,如表1所示。 表1传染病传播和微博传播 似性,将传染病模型应用到微博信息传播研究。文献[7]提出 通用流行阀值条件,利用传染病模型的方法预测微博的转发规 模,但模型只进行仿真验证,未进行真实数据的模型验证。H 等 利用扩展的传染病模型对腾讯微博信息的转发次数进行 了准确的预测。Wang等 提出扩展的SIS(Susceptible—Infec. 传染病传播 传染性疾病 疾病传染 微博信息传播 微博信息 转发 tious-Susceptible)疾病传染模型,但是没有考虑微博用户转发行 为的免疫性,即微博用户不会再次转发自己已经发表或者转发 已感染个体 易感染个体 微博信息的转发者 原创者/转发者粉丝 过的微博信息。 由于SIR模型中假设此环境中人口的总数是不发生变化 针对上述研究,缺乏在微博信息传播过程中对微博信息转 发总数的预测和微博信息传播趋势预测研究。本文根据微博信 息传播与传染病传播的相似性,借鉴经典的SIR传染病传播模 型,引人微博信息传播的开放特性,在SIR传染病模型的基础之 上引入外来用户,构建微博信息传播预测模型。本文模型能较 好地预测微博信息随时间变化的转发数,并预测微博信息的传 播趋势。 经典SIR传染病传播模型 ,S(t+1)一S(t)=一卢S(t),(t) l,(t+1)一,(t)=卢s(t),(t)一 ,(t) 1 R(t+1)一R(t)= ,(t) LN(t)=S(t)+I(t)+R(t) K 的,并且只是存在3种状态。但是微博信息传播具有开放性,外 来用户可以在没有关注转发微博用户的时候,自主地阅读和转 发此微博。所以本文对SIR模型进行改进并应用到微博信息传 播研究中。 2微博信息传播预测模型 在微博网络中,微博信息传播的主要途径是通过微博用户 之间的转发。一个微博用户发布的消息会被其粉丝看到,并可 能转发该微博信息。当用户转发微博之后,用户不会再次转发 自己已经转发过的微博信息成为“免疫用户”。由于微博信息 传播的开放性,微博用户可能在没有关注转发用户的情况之下 阅读且转发该微博而成为“外来用户”。因此本文在经典的传 染病传播的SIR模型的基础之上引入外来用户,提出满足微博 信息传播特性的微博信息传播预测模型,并定义为SIRE(Sus— ceptible-Infectious—Recovered—Externa1)模型。 在SIRE模型中,将微博用户定义为以下4类:感染用户 (I)、易感染用户(S)、免疫用户(R)和外来用户(E)。微博用户 的状态转变规则如下: 1)假设微博用户A发布或者转发某条微博信息,则微博用 户A的状态为感染用户(I),且微博用户A的直接粉丝的状态 为易感染用户(S)。 2)假设微博用户B为微博用户A的直接粉丝,则用户B 转发该微博信息的概率是口,即微博用户从易感染用户成为感 染用户的概率是 。 3)假设用户B转发信息成为感染用户之后,不会再次转发 该微博信息的概率为Ot,即微博用户从感染用户(I)成为免疫 用户(R)的概率是Ot。 4)假设微博用户C没有关注发布该微博信息的用户和任 何转发该微博的用户,则用户C的状态为外来用户(E)。用户 C自主阅读该微博并转发的概率为 ,即微博用户从外来用户 (R)成为感染用户(I)的概率是 。 微博用户的状态转变图,如图1所示。 图1 SIRE模型用户状态转变图 第5期 游新年等:基于传染病模型的微博信息传播预测研究 55 当给定某条微博,在£时刻,在SIRE模型中,易感染用户s, 其数量记为S(t),表示t时刻易感染用户且可能转发该微博的 人数;感染用户I,其数量记为,(t),表示已转发该微博的用户 而且具有传播力的人数;免疫用户R,其数量记为R(t),表示t 时刻不再转发传播该微博的人数。 SIRE模型的假设有:(1)当某微博用户发布或者转发某条 微博信息时,该用户的直接粉丝即易感染用户就有可能转发该 微博。假设从t时刻起,单位时间内一个感染用户能传播的易 感染用户数为Js(t),转发传播的概率为口,从而在单位时间内新 增感染用户数为 (t),(t)。(2)在t时刻,单位时间内从感染 用户成为免疫用户的概率是ot,单位时间内增加的免疫用户的 数量为cd(t)。(3)在t时刻,单位时间内外来用户转发该微博 的概率为 ,单位时间内由外来用户转变为感染用户的数量为 TE(t)。外来用户占实时的感染用户的比例 ,则单位时间内增 加的外来用户为CO1(t)。 根据上述定义,我们可以得出SIRE的表达式为: ,S( +1)一S( )=一卢S( ),( ) 1J ,(t+1)一,(t)=卢|s(t),(t)一al(t) TE(t) , 、 R(£+1)一R(f)= ,(£) I.E(t+1)~E( )=wl(£) 由式(1),可以计算得出在单位时间内转发该微博的易感 染用户数量、免疫用户数量、外来用户数量和感染用户数量。由 感染用户数量得出单位时间内微博的转发总数,从而可得出微 博在一定时间内的转发总数和传播趋势。 3对比实验与分析 本文是采用Win 7,CPU G3200,4 GB的电脑平台进行实 验,与文献[9]中的SISe模型进行对比。提出的SIRE模型和 SISe模型的模型系数均为定值,不随时间发生变化,使对比实验 更具有合理性。本文实验采用两种指标对模型效果进行评估, 首先是对模型的拟合效果评估,然后是对模型的预测效果评估。 3.1数据获取 目前,新浪微博是国内影响力最大,为了客观地验证本文提 出的微博信息传播预测模型,本文通过新浪微博提供的API接 口函数,首先获取从2014年3月到5月的“头条新闻”用户的原 创微博信息,再获取这些原创微博信息的转发微博信息。微博 信息传播传播速度衰减较快,后期的转发数基本不会有较大的 改变,所以筛选出200条从微博发布开始转发行为持续2天时 间的转发数在1000次到20 000次的微博信息作为本实验数据 集。其中取100条微博的转发信息作为训练数据集。另外100 条微博的转发信息作为测试数据集。 3.2模型的拟合对比实验 设置微博发布时刻为初始状态,假设为t。,此时只有微博信 息的发布者为感染用户,其微博发布者的粉丝为易感染用户,即 t=t0,,(t0)=1,E(to)=0,S(t0):K,K为微博发布者的粉丝 数量,各参数数据获取见3.1节。其中模型的参数卢、ot、 的取 值,采用了粒子群算法对训练数据集进行训练求解得出最优系 数。根据其最优系数,可得出t时刻的感染用户,(t),表示该时 刻微博信息的转发总人数。因此得出本文提出的SIRE模型和 SISe模型的拟合效果对比图如图2所示。其中纵坐标为某微博 信息的转发总数,横坐标为时间变量,数据取微博转发早期,持 续转发2天的微博,以每小时为时间单位则£(O≤f≤48)。 £ 划 图2模型拟合效果对比图 从图2中可以看出: 1)在初始阶段微博信息转发总数增长较快,说明微博信息 传播初期的转播速度较快。随着时间的推移,微博信息的转发 总数增长缓慢,微博信息的传播速度较慢,微博信息传播趋于衰 减。一定时间段后转发总数趋于平稳状态,不再有用户转发该 微博信息,微博信息传播结束。本文提出的模型能较好地拟合 微博信息传播趋势。 2)当t接近于0时刻,模型的拟合值真实数据值相差较大, 因为初始值和算法本身相关,粒子群算法初期易出现早熟等现 象,随着迭代的增加,更逼近真实值。 3)在微博传播的初始阶段,SIRE模型拟合值比SISe模型 拟合值更接近真实数据。在微博传播的衰减阶段,SISe模型拟 合值更接近真实数据。在微博的传播过程中,相比于微博传播 的稳定期,其初期的快速传播拟合在谣言传播、舆情控制中的应 用更具有意义。 为了对两个模型的建模效果进行分析,我们采用绝对误差 和均方根误差(RMSE)来进行比较。绝对误差值和RMSE用来 衡量拟合值和真实数据之间的误差大小,绝对误差越趋于零值, 表示拟合效果越好。RMSE越小,表示拟合效果也越好。 RMSE的计算方法如下: RMSE:^ n 、主( 一  (2) 本文提出的SIRE模型和SISe模型的拟合绝对误差和 RMSE分别如图3和表2所示。图3中纵坐标为模型的绝对误 差值,横坐标为时间t,由比较结果可知,本文提出的SIRE模型 拟合的绝对误差和RMSE值均更小,说明SIRE模型的拟合效果 更好,能更好地拟合微博信息传播发展的趋势,符合微博信息传 播规律。 图3模型拟合绝对误差图 56 表2模型拟合RMSE值结果 计算机应用与软件 表3模型预测RMSE值结果 SIRE模型 53.743 2016皋  ISIRE模型 228.4209 SISe模型 369.9183 SISe模型 57.9756 3.3模型的预测对比实验 为了客观衡量模型预测的效果,采用测试集数据对模型进 行验证。利用前面训练得出的模型最优系数引入式(1)中预测 4结语 得出微博信息随时间变化的转发总数。预测效果对比如图4所 示。其中纵坐标为某微博信息转发总数,横坐标为时间变量t, 本文研究了微博信息的传播,提出一个微博信息传播预测 的模型。该模型在经典的SIR传染病模型基础之上,结合了微 博用户转发行为特性,并且与SISe模型进行对比实验。实验结 数据取微博转发早期,持续转发2天的微博,以每小时为时间单 位则t(0≤t≤48)。 g 蜒 图4模型预测效果对比图 从图4中可以看出: 1)在微博信息传播初期,t接近于0时刻,两个模型的预测 效果均不太好,这与粒子群算法本身相关,初期易出现早熟等现 象,随着迭代的增加,更接近于真实值。 2)两个模型均能较好地预测微博信息的随时间变化的转 发总数,本文提出的SIRE模型的预测值更接近真实数据,预测 效果更好。 其中SIRE模型和SISe模型的预测绝对误差和RMSE分别 如图5和表3所示。图5中纵坐标为模型的绝对误差值,横坐标 为时间t。由比较结果可知,本文提出的SIRE模型的预测效果 图5模型预测绝对误差对比图 果表明,本文提出的SIRE模型可以更准确地拟合和预测微博信 息的转发总数,准确地预测微博信息的传播趋势。尽管如此,本 文的工作中仍有需要改进的地方。比如,在微博信息传播过程 中,随着传播用户的增加,微博信息传播的概率也可能有变化, 如何提高模型的预测精度是本文的未来工作。 参考文献 [1]Zaman T R,Herbrich R,Van G J,et a1.Predicting information sprea— ding in twitter[c]//Whistler,Canada:Proceedings of Workshop on Computational Social Science and the Wisdom of Crowds,2010:1—4. [2]Yang Zi,Guo Jingyi,Cai Keke,et a1.Understnading retweeting behav- iors in socila networks[C]//Toronto,ON,Canada:Proceedings of the 19th ACM International Conference on Information and Knowledge Management,2010:1633—1636. [3]Suh B,Hong L,Pirolli P,et a1.want to be retweeted.9 large scale aria— lytics on factors impacting retweet in twitter tetwork[C]//Proceedings of IEEE 2nd International Social Computing Conference,2010:177 184. [4]Petrovi S,Osborne M,Lavrenk O V,et a1.RT to win!predicting mes— sage propagation in twitter[C]//AAAI Publications,Fifth International AAAI Conference on Weblogs and Socila Media.2011:586—589. [5]Hong Liangjie,Dan O,Davison B D.Predicting popular messages in twitter[C]//Hyderabad,India:Proceedings of the 20th International Conference Companion on World Wide Web,201 1:57—58. [6]张砀,路荣,杨青.微博各种转发行为的预测研究[J].中文信息学 报,2012,26(4):109—114. [7]Ch ̄rbaarti D,Wang Y,Wang C,et a1.Epidemic thresholds in real net— works[J].ACM Trnasactions on Information and System Security, 2008,10(4):1—26. [8]IJi Y,Feng Z,Wang H,et a1.ReTweet :Modeling and predicting tweets spread using an extended Susceptible ·Ifnected·-Susceptible Epidemic Model[C]//Wuhan,China:Database Systems for Advanced Applica- tions:18th International Conference,2013:454—457. [9]Wang H,Li Y,Feng Z,et a1.ReTweeting analysis and prediction in mi— croblog:An epidemic Inspired Approach[J].China Communication, 2013,10(3):13—24. [10]HamerWH.Epidemic diseasein englinad[M].London:Bedford Press, 1906. [11]Ross R.The Prevention ofmalaria[M].Dutton:NaBu Press,1910. [12]Kermack W O,Mckendrick A G.Contirbutions to the mathematical the— ory of epidemics.II.The Problem of Endemicity[J].Bulletin of Math— ematical Biology,1991,53(1—2):57—87. [13]Hethcote H W.A Thousnad and on epidemic models[C]//Davis,CA, USA:WorkShop of Lecture Notes in Biomathematies,1994:504—504. 

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- huatuo0.com 版权所有 湘ICP备2023021991号-1

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务