微博传播过程实证研究及效果评估
南京大学 王晓亮、王婷婷、杨宣华
摘要:微博即微型博客,是一个基于用户关系的信息分享,交流及传播的平台,是一种互联网社交服务。本文围绕微博传播过程,通过抽样,内容分析,甚至问卷调查方法对传播主体,传播内容进行统计分析(统计量描述,非参数检验,相关性检验,聚类分析等),并用聚类分析方法对较活跃传播主体样本进行分类,再利用层次分析法对不同类别进行定量的传播效果评估。研究发现:(1)对微博用户对自发话题和转发议题的文本内容使用较多;(2)对于社会的一些热点,公益,公共新闻,粉丝们会更多地去参与转发,而对于博主原创的内容,粉丝们会更多的去交流即回复;(3)用户(主要指人)发微博内容属性是随机的,而对于那些有针对性机构,所发内容呈现一定聚集性。(4)微博中名人效应依然明显,传播效果和诸多因素有关,按聚类分析分出类中,按照本文定量评估方法
D1(小s,蔡永康,何炅)传播效果最好。最后基于这些研究提出些微博发展和建设展望。
关键字:微博 ; 统计分析 ; 层次分析 ;效果评估
一、引言 1.微博概况
作为最近几年兴起的一种媒介工具,微博以其片碎化内容,及时性,跨平台特征风靡全球。2006年3月,博客技术先驱blogger创始人埃文·威廉姆斯(Evan Williams)创建的新兴公司Obvious推出了大围脖服务。在最初阶段,这项服务只是用于向好友的手机发送文本信息。后来Twitter被Alexa网页流量统计评定为最受欢迎的50个网络应用之一,成为比较流行的社交网站。国外Twitter的“大红大紫”,令国内有些人终于坐不住了,校内,腾讯微博,新浪微博纷纷起来。2010年国内微博迎来来春天,微博像雨后春笋般崛起,2009年诞生的新浪微博,由于具有大量公众人物用户这一优势,自推出之日起借助名人效应,轻松突破百万用户量。据东方早报3月25日的消息称,新浪微博已成为目前中国用户数最大的微博产品。所以本文就选取国内新浪微博作为实证研究对象。 2.文献综述
我们对国内学术期刊中关于微博客的文献查找。选取维普数据库作为数据来源(http://www.cqvip.com/),截止2011年6月29日,得结果来自《中文科技期刊数据库》1939篇,来自《仓储式在线出版平台》 39409篇。
查看历史,截止2010年4月时,只有77篇研究“微博”的论文,可见伴随着微博的爆发性发展,国内对其研究也同步进行着。添加关键字“新浪”我们得到来自《中文科技期刊数据库》116篇,本文研究的重点在于微博效果的评估,搜索关键“微博 效果”紧得到《中文科技期刊数据库》2篇,分别是《微博营销效果评估的两个支点》,《媒体融合时代下微博的传播效果》,而这两篇文章的评估方法主要还是在定性上进行研究。实际上微博评估体系目前尚不成熟,效累评估模式目前的争议也还比较大,目前人们初步较认可的评估手段主要从微博本身价值评估和微博传播活动两个方面进行考核。而定性分析中由人民大学李齐写的《微博客传播效果研究——以新浪微博为例》(人民网,2010),通过对影响传播效果的各个因素分析,构造出一种效果评估体系。本文将在这些文献参考的基础上运用一些统计方法,从量的角度出发分析数据,利用层次分析的方法得出 传播效果的具体值。
3.研究纲要 我们以新浪微博为例,构造研究模型: 传播过程 传播主体 传播方式 传播内容 传 播 效 果 发布者 接受者 效 果 评 估 层次分析 微博数 粉丝数 发布内容... 转发回复 内容类别 聚类分析 统计量特征 注意: 照视觉的不同可以分为微观效果和宏观社会效果,前者针对具体的传播行为,后者则从系统的角度将所有的微博传播行为看做一个整体,研究其对社会产生的广泛影响,本文研究的主要还是对微观效果的评估。 现在微博传播方式也多种,主要是工具的多样,wap网站,手机短信,手机微博客户端等,甚至听周围人转述也是一种传播方式。这里我们并没有把传播方式纳入到效果评估的因素中,实际上传播方式也影响着传播效果,但是影响的主要是宏观效果,而本文研究是微观方面的,所以不将传播方式考虑进去。 二、内容分析
微博的内容由于传播主体的性和个性而丰富多彩,运用传播学理论的一些基本知识我们按照以下两个标准分类:1.是博主自己原创还是转述。2.涉及的领域是公共领域,即公众议题,还是只是私人领域的小话题。 按照这样两个标准我们分成四类:
1. 自发话题:即自己原创的私人一些事情,如生活见闻,心情,私人愿望
等。
2. 转发话题:不是原创,通过转述别人的一些私人话题,如转发私人图片,
评论某个人的博客,分享的一些小段子名言等。
3. 自发议题:博主自己写的对社会的事情,热点的点评感想,或者对一些
公益事业的宣传,一些行为的倡导。
4. 转发议题:转述别人的公共话题,转发新闻,或转发别人对公共事件的
点评等。
不同的内容反映不同人的动机和需求,这和不同人的职业,兴趣,生活习惯相关,而不同的内容引起的转发数和回复数必然也有差异,这和粉丝的兴趣有关。 现在我们研究一般微博用户议论内容的形式,以新浪微博为例通过微博广场随便看看一栏,我们知道每时每刻大家讨论的话题,现在我们抽取6月25日10:00,17:00,21:00时刻前100条微博内容形式进行观察,共300个样本。得到如下结果:
从图中看出微博用户自发话题较多,说明很多人喜欢通过微博对自己的生活感想或者自己的平常事用微博表达出来,%的人都是原创微博,出自用户自己。而37%的用户参与公共的议题,这也说明有不少人通过微博对自己周围或者社会热点事件议论,关注这些事情。
事实上,本次抽样只抽取6月25日的数据,样本相对较少,因此具体数据的说服力不强,但对用户的讨论聚集范围还是有一定的参考价值。
为了直观地研究各类微博的传播效果,对其进行评估, 我们研究内容属性
和回复量和转发量的关系,为此我们选取样本需要做到控制变量,对此进行有目的的抽样,必须微博的内容要尽量丰富,而且用户的粉丝数尽量不要相差太多,对此我们选择粉丝数在600万——700万的名人,并且来自不同的领域: 何炅(知名主持人,粉丝670万),李开复(著名企业家,粉丝590万),黄健翔(体育评论员,粉丝600万),李冰冰(著名演员,粉丝)。
对他们6月份的微博进行抽样,得到310个样本,导入excel中用spss进行统计量描述,对内容类别用数字标号:自发话题=1,自发议题=2,转发话题=3,转发议题=4,1,2,3,4类分别得到描述结果如下:
统计量1
N
有效 缺失
均值 中值 众数 标准差 偏度
偏度的标准误 峰度
峰度的标准误 极大值
转发
79 0 1652. 711.00 293 2370.407 2.948 .271 10.095 .535 13622 a
回复
79 0 1291.06 711.00 98 1742.508 2.615 .271 6.900 .535 8602 a
a. 存在多个众数。显示最小值
统计量2
N
有效 缺失
均值 中值 众数 标准差 偏度
偏度的标准误 峰度
峰度的标准误 极大值
转发
57 0 2176.58 1531.00 3214 2574.018 3.530 .316 14.576 .623 15010 回复
57 0 1125.68 770.00 620 1460.923 4.162 .316 21.048 .623 9569
统计量3
N
有效 缺失
均值 中值 众数 标准差 偏度
偏度的标准误 峰度
峰度的标准误 极大值
转发
94 0 1630.67 970.00 3222 1678.204 1.534 .249 1.8 .493 7308 a
回复
94 0 612.99 453.00 456 519.584 1.757 .249 2.741 .493 2459 a. 存在多个众数。显示最小值
统计量4
N
有效 缺失
均值 中值 众数 标准差 偏度
偏度的标准误 峰度
峰度的标准误 极大值
转发
74 0 15.74 1065.50 0 1703.922 1.607 .279 3.179 .552 8761 回复
74 0 741.07 586.00 96 722.650 3.350 .279 14.3 .552 4536 a
a. 存在多个众数。显示最小值
整理得到如下表: 转发数 内容类型 自发话题 自发议题 转发话题 转发议题
均值 1652. 2176.58 1630.67 1859.74 中位数 711 1531 970 1065 众数 293 3214 3222 0 极大值 13622 15010 7308 8761 回复数 内容类型 自发话题 自发议题 转发话题 转发议题 均值 1291.06 1125.68 612.99 741.07 中位数 711 770 453 586 众数 98 620 456 96 极大值 8602 9569 2459 4536 我们选择了四个变量指标,实际上我们从统计结果中可以看出众数的意义不大,甚至对我们的结果会有误导作用。结果显示,不同内容类型无论转发数还是回复数标准差都很大: 类容类型 自发话题 自发议题 转发话题 转发议题 转发标准差 2370.407 2574.018 1678.204 1703.922 回复标准差 1742.508 1460.923 519.584 722.650 说以数据的波动很大,而众数反映的是一组数据中出现次数最多的特征值,但是因为数据值大而且波动也大,出现相同数值的可能性很小,所以众数会有多个数,而结果显示确实有很多众数,所以用众数作为评判指标不好。于是我们只选择均值,中位数,极大值。平均值表示各类型转发(回复)量的平均水平;中位数表示各类型中转发(回复)量在最中间的数值,而极大值则表示最受关注的微博对应的转发(回复)数。为了更直观看数据关系,我们处理结果如下:
转发量
从上图中我们可以看出,三个指标的变化趋于一致,而且我们看出类型2和类型4的转发量明显高于类型1和类型2,而1,3类型有个共同的就是都是议题,无论是自发的还是转发的,对于议题即社会的一些热点,公益,公共新闻,粉丝们更多地去参与转发,并且自发的议题转发量高于转发别人发出的议题,这也很容易解释,对于转发别的用户的议题,本身已经是属于次级传播,对于该议题的原始用户本身就有一定的转发量,所以对其进行再转发就要少一些了。由此我们推出对于社会一些公共新闻,热点,公益等议题其转发程度很高,粉丝们更多地参与这些内容的转发,因此议题的的传播潜力和传播寿命更长,影响力更广。而话题无论原创还是转发,其传播力都比较有限。 回复数
上图中我们也可以看到三个指标变化基本一致,而且类型1和类型2的回复量明显高于3和4,也就是说粉丝更多地会参与到博主原创微博的交流中来,因为回复更多的是对微博评论或者自己的感想,就好比与博主进行交流,因此博主自己原创的微博有更多的回复。转发的话题则回复最少,结合前面转发量我们可以看到转发话题的转发量都是最少的,此类微博潜力小,不容易引起粉丝的交流。此外我们从极大值曲线看出,无论转发量还是回复量,都在比较高的水平,可见在微博转播过程中关注热度最高的还是社会热点、焦点,公共新闻等公众议题。
我们知道,转发数和回复量不是的,因为有部分粉丝不仅转发而且也回复,为了对此研究我们仍然用上述样本,在不同内容属性下对转发量和回复量相关性进行分析得到结果:
内容属性 自发话题 自发议题 转发话题 在0.01水平下皮尔逊相关系数 0.721 0.840 0.568 转发议题 所有样本 0.513 0.666 从上表我们看出,对于博主(主要指人物)原创的微博,转发数和回复量相关性比较高,而非原创的微博则相关性低,说明对于博主原创微博,既转发也回复的粉丝相对而言比例要高一些。
三、传播主体研究
据悉,截至4月底新浪微博注册用户数已超过1.4亿,预计年底前超过2亿用户,在社交网络里已经处于较领先的地位,并且任然以较快速度增长这。如此多的用户我们更多的还是研究其活跃度互动。对此我们可以将用户归类如下图:
对于非活跃用户,他们尽管注册了账号,但是并不怎么使用,对于他们的研
究就无意义,我们研究对象主要在活跃的用户。我们将活跃用户分成主关注者(这类用户主要通过关注自己感兴趣人或者机构企业来了解信息,他们自己发微博数则很少。),主被关注者(他们主要发微博,他们拥有大量的粉丝,通过微博进行互动交流。)以及二者的交互部分。主被关注者大部分为各行业名人,企业,机构等。
现我们用统计的一些分析方法对活跃用户进行研究。
首先我们看看那些博主的微博引起热议,在微博广场上,我们能查找到每日每周甚至每月的热门转发和热门评论的微博,我们对发这些微博的用户进行统计,选择六月转发量和评论量前五十的进行统计结果如下:
转发 评论 媒体机构 11 3 草根微博网 名人 16 2 23 45 从上表以及别人研究微博的一些文献中我们知道微博传播过程中存在“名人效应”,即名人发布的微博文本会比普通用户产生更强的传播效果,对此以前新浪微博赢取众多用户的一个重要手段是打“名人牌”,邀请各领域的名人在新浪开通微博,通过示范效应吸引粉丝们“蜂拥而至”。但是随着微博的火热进行,越来越多的用户参与其中,名人效应已经不像过去那么纯粹了,很多媒体机构,企业机构也开通微博并且拥有不少的人气,从转发一行我们看到很多媒体机构微博拥有很好的传播效果,而且很多草根微博也开始在微博中流行,(草根微博是随着微博的流行人们创建一种博体,例如冷笑话精选,搞笑排行榜,经典语录等,他们拥有一大批粉丝,他们发的微博有一定的一致性,如冷笑话精选发行很多冷笑话,这种微博也容易引起人们的转发,让更多人看到。) 对于评论则有所不同,名人效应依然明显。
对此我们研究博主研究范围还是集中在被大量人关注的一些名人机构上,研究思路如下:
1. 分层抽样
所谓分层抽样,是先按照对观察指标影响较大的某种特征,将总体分为若干类别,称之为层,再从每一层内随机抽取一定数量的观察单位,合起来构成样本。分层的原则是层间差别越大越好,层内差别越小越好。 根据上述研究,我们主要从名人,媒体机构,草根微博网中进行抽样,决定抽25~30个样本进行研究,为了研究每个样本的传播效果,转发量引起的传播效果更好,于是我们将其权重设为0.6,评论设为0.4,则在机构中抽样数为:25x(0.6x11+0.4x3)/50=3.9,于是抽取4个样本,同理在草根微博网中抽取5个,在名人中抽取17个,对此我们在名人top榜前50,草根榜前10,以及媒体机构榜前10中随机抽取17,5,4个样本,统计的其5月15日至6月15日的微博,选择指标为:1.各内容类型频数,2.微博总数,3.转发
量(取平均值,去掉最高两个和最低的两个再取的平均值),4.回复量(与3类似)5.粉丝数。
通过抽样数据初步整理得到表格(附表1)。
2. 数据分析
(1) 用run test检验用户发微博内容属性的随机性和用k-s检验
不同样本的差异性
Run test 即游程检验,是一种利用游程数来判断样本随机性的统计检验方法,所谓游程,是指在样本单位的抽取序列中某一类型的单位被另一类型单位前后隔开所形成的连续串。
游程检验的基本原理:对“样本是随机的”这一假设进行检验,在一个既定大小的的样本中游程总数标志着是否为随机样本,如果样本游程总数偏少,则表示样本中带有主观倾向性的因素;如果游程过大,则是系统短周期波动影响观察结果。所以游程过大过小都表示不是随机序列。
K-S检验:用于检验两个样本是否来自同一分布的一种检验方法。 现在我们利用手上数据作出假设:
H:用户发微博内容属性是随机的 显著水平∂=0.05
取一个统计的样本,如李冰冰得到其发微博前70的内容属性序列:
4311343444133433232244413142223113431334213342113343334113414
41324421
以均值作为割点,用spss游程检验得结果如下:
游程检验
检验值 案例 < 检验值 案例 >= 检验值 案例总数 Runs 数 Z
渐近显著性(双侧) a. 均值
a
形式 2.70 26 44 70 33 -.177 .860 结果显示以均值作为游程割点,小于均值26个,大于有44个,共33个游程, P=1-0.860=0.140>∂=0.05,所以接受假设,内容属性是随机的。
注意并非所有用户的微博内容属性都是随机的,对于一些特殊机构,他们发的微博具有很强的倾向性,例如我们都爱讲冷笑话,检验结果如下:
游程检验
检验值 案例 < 检验值 案例 >= 检验值 案例总数 Runs 数 Z
渐近显著性(双侧) a. 均值
a
1 1.40 78 20 98 33 .051 .959 P=1-0.959=0.041<∂=0.05,拒绝假设,该博主发行的微博内容比较聚集,不具有随机性。
事实上对于人物来说,每个人由于兴趣爱好职业的不同,发微博属性必然会受到这些主客观因素的影响,发的属性也会因此而多样,具有随机性,并且不同人差异有大有小,这些都和诸多因素如职业性别兴趣等影响有关。比如我们抽取何炅和李冰冰两个样本进行分析,判断所发微博属性是否来自同一个总体: 假设H:两个样本微博内容属性服从同一分布(无显著差异) 用K-S检验运行结果如下:
检验统计量
a
最极端差别
绝对值 正 负
Kolmogorov-Smirnov Z 渐近显著性(双侧) a. 分组变量: 4
3 .175 .000 -.175 .434 .992 P=1-0.992=0.008<0.05拒绝假设,说明两个样本具有明显的差异。由于何炅是男主持人,而李冰冰则是女演员,职业相差大,工作环境不同,并且爱好兴趣也不同,所以得出明显差异也与实际相符。
(2) 用聚类分析方法对样本进行聚类分析
(2.1)聚类分析的概念:
物以类聚,人以群分,分类是人们认识世界的基础。在社
会、经济及自然现象的研究中,存在着大量分类研究的问题。例如,为了
研究不同地区农民家庭不同收入的分布规律,需要对不同地区、不同农民
家庭、不同收入进行分类。尽管传统的分类方法起源很早,但利用数学和计算机 手段对复杂对象进行定量分类的方法还只有几十年的历史。过去人们主要 靠经验和专业知识进行定性分类处理,致使许多分类带有主观性和任意性, 不能很好地提示客观事物内在的本质差别与联系,特别是对于多因素、多 指标的分类问题。为了克服定性分类的不足,有必要引入数学方法,形成 了数值分类法。
数值分类一般有两种情况:一是已知研究对象的分类情况,需将某些 未知个体正确地归属于其中某一类,是一种有师分类;二是研究对象不存 在事前分类的情况,而将数据进行结构性分类,是一种无师分类。对于前 者,属判别分析(Discriminant Analysis)的内容;而后者则属于聚类分析的 内容。聚类分析是研究“物以类聚”的一种多元统计分析方法。
聚类分析的基本思想是根据对象间的相关程度进行类别的聚合。在进 行聚类分析之前,这些类别是隐蔽的,能分为多少种类别事先也是不知道 的。聚类分析的原则是同一类中的个体有较大的相似性,不同类中的个差 异很大。
更据聚类的对象不同我们将聚类分析分成2类: 1、样品聚类
样品聚类又称为Q 型聚类,就是对样本单位的观测量进行聚类,是根 据被观测的对象的各种特征,即反映被观测对象的特征的各变量值进行分 类。不同的分析目的选用不同的指标(变量)作为分类的依据。 2、变量聚类
变量聚类又称为R 型聚类。反映同一事物特点的变量有很多,我们往 往根据所研究的问题选择部分变量对事物的某一方面进行研究。由于人类 对客观事物的认识是有限的,往往难以找出彼此的有代表性的变量, 而影响对问题的进一步认识和研究。例如,在回归分析中由于自变量的共 线性导致偏回归系数不能真正反映自变量对因变量的影响等。因此往往先 要进行变量聚类,找出彼此且有代表性的自变量,而又不丢失大部分 信息。
聚类分析一般步骤: 数据变换处理 计算聚类统计量 选择聚类方法 (2.2)数据变换处理
为了克服原始数据由于计量单位的不同对聚类分析结果产生不合理的 影响。在聚类分析过程中,首先应对原始数据进行数据变换处理。
于是数据矩阵:
X11X21Xn1X12X22Xn2X1pX2p ...Xnp... 其中n是样本容量,p是自变量,Xij表是第i个样本在j变量下取值。
所谓数据变换,就是将原始数据矩阵中的每个元素,按照某种特定的运算,把它
变为一个新值,而且数值的变化不依赖于原始数据集合中其它数据的新值。对原始数据进行变换的方法主要有把数值变换为Z score(标准化变换)、变换到0~1 范围内(规格化变换)、变换到-1~+1范围内、变换到最大值为1、变换到均值为1 或标准差为1 等等, 这里主要介绍前面两种方法。
1.标准化变换
标准化变换把原始数据转化为标准式为:
(i=1,2,„,p)
分数变换方法。其变换换
其中:表示标准化数据,表示j的均值,表示j的标准差即:
用矩阵表示,则有:
不难看出,经过标准化变换后的数据矩阵式的每列数据的平均值为0,方差为1。使用标准化变换处理后,消除了数据计量单位不同的影响,便于数据的直接比较。因此标准化变换方法在实际中应用最多。 2.规格化变换
规格化变换又称为极差正规比变换。它是从数据矩阵中的每一个变量中找出其最大值和最小值,并用最大值减去最小值得出极差(Range)。然后以每一个原始数
据减去该变量中的最小值,再除以极差,即得规格化数据。设原始数据矩阵仍为,规格化数据为'X ij,则规格化数据的计算公式如下:
经过规格化变换后,将每列的最大数据变为1,最小数据变为0,其余数据取值在0~1 之间。规格化变换后的数据也消除了计量单位的影响。上面两种变换方法都是通过变量进行变换处理,也可以通过样品进行变换处理,例如标准化变换公式中的均值和标准差采用样品的均值和标准差而不是变量的均值和标准。实际中应用较多的是通过变量进行变换。
定距(Interval)、定比(Ratio)变量的聚类统计量
定距、定比变量的聚类统计量可以分为两类:距离和相似系数。距离通常用于样品聚类分析,而相似系数用于变量聚类分析,由于本次是对样本聚类,相似系数便不再介绍。 距离(Distance)
距离的计算方法多种多样,但常用方法主要有三种,即欧氏距离、明《实用现代统计分析方法与SPSS 应考斯基距离、绝对值距离、切比雪夫距离等等。欧氏距离(Euclidean distance)是聚类分析中用得最广泛的距离。如果仍根据式(15-120)的变换数据矩阵计算第i 行和第k 行的欧氏距离,则有欧氏距离公式为:
将所有行之间的欧氏距离都算出,同样可以得到一个n× n的欧氏距离矩阵:
其中
表示式中第i 行和第j 行的欧氏距离。由欧氏
距离的计算可知,距离是把每个单位看成是p 维(p 是变量的个数)空间的一个点,在p 维坐标系中计算的点与点之间的某种距离。有了距离,则可以根据点与点之间的距离进行分类,即将距离较近的点归为一类,而将距离较远的点归为
不同的类,这便是聚类分析的标准。
欧氏距离(Euclidean distance)第i 个样品与第k 个样品之间的欧氏距离为
即两样品之间的距离是每个变量值之差的平方和之平方根。 欧氏距离平方(Squared Euclidean distance)是欧氏距离的平方,即样品之间的距离是每个变量值之差的平方和。 切比雪夫距离(Chebychev)
,即任意一个变量值之差的最大绝对值。 明考斯基距离(Minkowski)变量值之差的q 次方值的绝对值之和的q 次方根。
是欧氏距离的扩展,每个
聚类方法:
确定了样品统计量后,就要对样品(或变量)进行分类。样品聚类和变量聚类的方法很多,本次仅阐述样品聚类中的系统聚类法。
系统聚类法是目前应用最多的一种聚类方法。该方法的基本思想是,首先将每个样品各自看成一类,选择距离最小的两类合并成一新类,然后计算该新类与其他类之间的距离,再将距离最小的两类进行合并,如此继续,这样每次合并后都减少一类,直到所有的样品都聚为一类为止。 类与类之间的距离有多种计算方法,如既可以计算两类单位之间的最近距离以表示两类之间的距离大小,也可以计算两类单位之间的最远距离以表示两类之间的距离大小等。正因为类与类之间距离的不同计算,就产生了系统聚类的不同方法。系统聚类法常用的方法有组间连接法,组内连接法最短距离法,最长距离法,重心法Ward 法(离差平方和法)等,这里主要介绍组间连接法和组内连接法。 1、组间连接法(between-groupslinkage)
合并两类的结果使所有的两两样品之间的平均距离最小。样品对的两个单位别属于不同的类。(SPSS 默认方法)
2、组内连接法( within-groupslinkage)
合并后的类中的所有样品之间的平均距离最小。两类间的距离即是合并的类中所有可能的样品对之间的距离平方。
(2.2)对样本进行聚类分析:
首先对样本数据进行标准化,用Z score法标准化,得到(附表2)。
再次计算统计量,我们选取欧式距离平方这个统计量,运用spss得到结果:
聚类表 阶 群集组合 群集 1 群集 2 系数 首次出现阶群集 群集 1 群集 2 下一阶 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 3 5 13 18 3 13 2 18 13 13 3 7 3 1 3 3 11 3 6 6 1 1 1 4 15 14 21 5 19 17 22 24 20 23 13 18 2 10 7 12 16 8 9 3 6 11 .019 .035 .036 .042 .074 .091 .111 .123 .131 .158 .195 .244 .246 .260 .386 .573 .614 .690 .761 1.051 1.102 1.401 2.465 0 0 0 0 1 3 0 4 6 9 5 0 11 0 13 15 0 16 0 19 14 21 22 0 0 0 0 2 0 0 0 0 0 0 10 8 7 0 12 0 0 0 0 18 20 17 5 5 6 8 11 9 14 13 10 12 13 16 15 21 16 18 23 21 20 22 22 23 0
最后进行归类,用组间连接的聚类方法得到数状图:
鉴于上述树状图我们将样本分成五类,即: 类一 小s,蔡永康,何炅 类二 陈坤,赵薇,李开复,美容健康,veggieg,江苏卫视,扬子晚报,黄健翔,李冰冰,李承鹏,陈一冰,郎咸平,林俊杰,陈建州,易建联,于嘉 我们爱讲冷笑话,生活小智慧 微博经典语录 新浪财经,南方都市报 类三 类四 类五
我们从树状图中看到,第二类占据着绝大部分样本,实际上为了分的更细,我们可以将第二类博主在进行分类: 陈坤,赵薇,李开复,李江苏卫视,扬子晚报,陈黄健翔 冰冰,易建联,李承鹏,一冰,于嘉,郎咸平,美林俊杰,陈建州,veggiegg 容健康 (3) 利用层次分析法对不同类别进行传播效果评估
基于上述类别我们需要对每一类地传播效果进行评估,我们看到,某些类别样本偏少,为了使研究更具有准确性,我们将类二再次分成了三类(根据树谱图),将样本较多的两类拿出来,在和五类中第一类一起进行传播效果评估。 小s,蔡永康,何炅 D1 D2 D3 陈坤,赵薇,李开复,李冰冰,易建联,李承鹏,林俊杰,陈建州,veggiegg 江苏卫视,扬子晚报,陈一冰,于嘉,郎咸平,美容健康 依据之前的统计样本,对每一类地相应指标算出其平均值,得到表: D D D 7379 5039 1539 粉丝数 96 137 205 微博数 44 35 自发话32 题 18 75 自发议19 题 40 26 转发话18 题 35 67 转发议30 题 3141 1781 7 转发数 2347 842 170 回复数 123 (3.1)分层分析法概念原理简介:
分层分析法(简称AHP)是美国运筹学家T.L.Saaty教授于70年代初期提出的一种简便,灵活而又实用的多准则决策方法,它把一个复杂问题分解成一些因素,并按照支配关系形成层次结构,然后用两两比较的方法确定决策方案的重要性。 运用AHP解决问题,大体可以分成四个步骤:
第一·分析系统中各因素之间的关系,建立系统递阶层次结构
这是层次分析法中最重要的一步,将某一个复杂的问题按照一定标准分成若干组形成不同层次,同一层次的元素对下一个层次的起支配作用,同时它也受到上一层地元素支配,便形成递阶层次,例如图例。 第二·构造两两比较判断矩阵
对同一层次的各因素关于上一层次中某一准则因素的重要性进行两两比较,根据判断尺度确定其相对重要度, 并据此构造成对判断矩阵A; A=(aij)nn具有如下性质:
(1)aij0 (2)aijaji1 (3)aii=1
两两比较判别的标度一般用1-9的标度方法: 1 表示两元素相比较,具有同样重要性 3 表示两元素相比较,一个元素比另一个元素稍微重要 5 表示两元素相比较,一个元素比另一个元素明显重要 7 表示两元素相比较,一个元素比另一个元素强烈重要 9 表示两元素相比较,一个元素比另一个元素极端重要
第三·计算权重
权重用W来表示,其满足AW=maxW,计算权重和法较多,我们这里介绍“和法”计算权重:
1.A的元素按列归一化:aij= aijnak1nkj(i,j=1,2,3...n)
2.将归一化元素各列相加:Wi=aij (i,j=1,2...n)
j13.将所得到向量归一化得排序权向量:Wi=Wi4.max=i1nW
ii1n(AWi)i 其中(AWi)i表示AWi的第i个元素。 nWi第四·计算各层元素对系统目标的合成权重,进行决策判断。
W2(k1)Wn(kk11))设k-1层上nk1个元素相对于总目标的排序权重Wk1=(W1(k1),
(k)(k)第k层nk个元素对于上一层第j个元素的权重p(jk)=(p1(,kj),p2,则设k,jpnk,j)
层上nk个元素相对于总目标的排序权重W(k)=p(k)p(k1)p(k2)p(2)W(2),其中W(2)是第二层相对于总目标的排序权重。
注意:在进行第三步时,要对矩阵的一致性进行判断,满足aijajk=aik的矩阵称为一致性矩阵,在实际中并不要求矩阵完全一致,只要大体一致即可,但是当偏离一致性过大时,排序权重结果则不准确,所以判断一致性具有重要意义。对一致性判断我们用专门AHP软件测试即可。
(3.2)用层次分析法对D1,D2,D3进行传播效果评估:
1.建立递级层次结构:
对不同类进行传播效果评估(层次分析法)
传播效果模型Z B1 传播范围 B2信 息 到 达 B3 内 容 属 性 B4信 息数 量 C1 粉 丝 数 C2 转 发 C3 C4 C5 C6 C7 评论 自 发 话 题 自 发 议 题 转 发 话 题 转 发 议 题 C8 微 博 数 D1 D2 D3 注:以上各层间的支配关系是完全的,即上一层次的每个元素支配下一层次的每个元素。
构造判断矩阵,计算权重。
成对判断矩阵Z-B: Z B1 B1 1 B2 B3 3 B4 3 W 0.3 3 51 B1 3 51 31 35 5 0.5 B1 1 51 51 1 0.1 B1 1 1 0.1 max 4 根据判断准则,我们认为信息数量和内容对传播效果影响最小的,且认为他俩同等重要定为1,与之相比,粉丝数量要稍微重要定为3,与粉丝数量比信息到达(转发数与回复速)又要稍微重要记为5,得上矩阵。其中W和max由“和法”算出。
成对判断矩阵B1-C:
B1 C1 C1 1 1 W 1 max
成对判断矩阵B2-C:
B2 C2 C2 1 C3 W 0.583 7 51 C3 7 50.417 max 2 由于转发量比评论更重要些,因为转发量越多说明信息到达范围会越广,可赋转发量为7,评论量5。
成对判断矩阵B3-C:
B3 C4 C5 C6 C7 C4 1 1 1 1 C5 1 1 1 1 C6 1 1 1 1 4 C7 1 1 1 1 W 0.25 0.25 0.25 0.25 max
在内容属性准则下,四种内容属性平等的,每一个代表一个属性,都赋值为1。
成对判断矩阵B4-C:
B4 C8 C8 1 1 W 1 max
再看下一层C-D:
C1-D:
C1 D1 D1 1 D2 D3 W 0.519 14 101 14 310 31 D2 10 143 140.370 D3 3 10 3 0.111 max
D1,D2,D3粉均值分别为7379,5039,1539。可设值为14,10,3得上表。 C2-D:
C2 D1 D1 1 D2 D3 W 0.571 28 161 28 516 51 D2 16 285 280.327 D3 5 16 3 0.102 max C3-D:
C3 D1 D1 1 D2 转发D1,D2,D3分别为3141,1781,7。则按比例分别设成数字:28,16,5 D3 14 W 0.700 14 51 D2 5 141 145 0.250 D3 1 5 3 1 0.050 max D1,D2,D3对应评论数为2347,842,170。设数为14,5,1。 C4-D:
C4 D1 D1 1 D2 D3 W 0.273 6 91 6 79 71 D2 9 67 60.409 D3 7 9 3 0.318 max C5-D:
C5 D1 D1 1 D2 1 第一类内容属性频数D1,D2,D3分别为32,44,35。设为6,9,7 D3 W 0.167 1 41 41 3 D2 1 1 0.167 D3 4 4 0.667 max
第二类内容属性频数D1,D2,D3分别为19,18,75。设为1,1,4 C6-D:
C6 D1 D1 1 D2 D3 W 0.214 3 71 3 47 41 D2 7 34 30.5 D3 4 7 3 0.286 max C7-D:
C7 D1 D1 1 D2 第三类内容属性D1,D2,D3 频数分别为18,40,26。设为3,7,4 D3 W 0.231 6 71 6 137 131 D2 7 613 60.270 D3 13 7 3 0.500 max
第四类文本属性频数D1,D2,D3分别为30,35,67。设为6,7,13 C8-D:
C8 D1 D1 1 D2 D3 W 0.1 7 101 7 201 21 D2 10 720 70.270 D3 2 0.1 max 3 D1,D2,D3微博数分别为:96,137,205,可设数为7,10,20。 从而计算出最终权重为: 结果分析:依据上述数据,用AHP分析软件计算出权重为W=(0.509,0.319,0.172) 因为0.509>0.319>0.172,得出D1类博主传播效果优于D2类,D2类优于D3。 以上表格矩阵均通过AHP软件一致性检验。
四、结语
从以上研究结果看到名人效应依然明显,微博数D1, D2 类的都是有名人组成,而且微博数多并不意味着传播效果一定好,我们看到D1 类的博主微博数量是最少的,但是他们却拥有众多粉丝,转发,回复数量都是最高的,这是名人效应的结果。
2.对于一些媒体机构,草根网传播效果正逐渐增强,比如D3类出现江苏卫视,扬子晚报,美容健康。但是传播效果依然有限。
3.粉丝数依然是传播效果一个重要指标,我们看到D1 ,D2 ,D3的传播效果和粉丝数具有同步性质。于是经营微博的一个重要做法就是增加粉丝数量,我们从研究中发现粉丝对大众议题,社会热点的转发量都比较高,而且原创议题更容易获得转发量,所以增加原创议题,增加转发次数从而得到更多人的关注。而且博主原创微博容易获得更多的回复,因此加强微博互动交流也是一种方法。时效性强,原创度和新颖度高的博客容易获得更多关注。
4.一些企业机构做品牌营销应该注意充分发挥名人效应,例如增加专家点评,专家预测,并且发微博充分抓住用户关注的热点,甚至增加互动栏目,增加自己粉丝数,提高品牌效应。
随着微博的迅速发展,除了企业经营与商业运作以外,微博客还以其它方式影响着经济领域的其他方面,比如:作为信息发布平台的微博客,可以让专家发
表观点意见,从而直接或间接影响人们的经济决策等。 微博传播效果还表现在除政治、经济以外的文化交流、人际交往、道德体系建设等方面。微博必然会成为一种社会文化。
本文从传播效果这一视角入手,以新浪微博为例,定量研究了微博客过程传播效果的指标体系和相关影响因素。希望本文的研究能对今后微博客的传播实践提供一定理论依据。
研究缺陷:
1.研究模型:在选择效果评估指标时,无论转发还是回复等等都是直观显示的指标,实际上这些指标并不完整,一些非直观的潜在因素都没有考虑,例如粉丝,我们只考虑了其数量,而对其质量并没有考虑,这里的粉丝质量度是在综合考虑了粉丝的关注数、粉丝数、是否加V、活跃度等因素,而不是单纯的数量累加,粉丝活跃度也不能单纯用转发和评论数来度量,还存在部分粉丝只浏览既不转发也不回复,所以检测网页浏览量也是个重要指标。目前在这方面,微博大师是相对比较好的一个评估软件。所以结果应该科学对待。
2.关于抽样,我们抽样范围实际上是集中的非常活跃的发布者,如名人,名企,名机构,排名都比较靠前。这是由于模型指标选择的缘故,我们选择的指标都是能直观统计的,如果不是很活跃的发布者,这些指标或许会一样,这种评估模型就没有了意义。
3.本文在某些语言细节上还不够详细严谨,模型也稍显简单,最后层次分析法并没有对每一类效果进行评估,考虑到某些类样本数只有一个两个,评估意义不大,这与样本选着集中在排行榜较前有关,有想抽样其他靠后的但考虑到模型指标如转发回复,也许靠后这些指标太小,所以只能放弃。
参考文献
1. 高惠璇 《应用多元统计分析》 北京大学出版社 2005 2. 郭庆光 《传播学教程》 中国人民大学出版社 1999 3. 胡颖 《传播学调查研究方法》 中国传媒大学出版社 2010 4. 李永健 《传播研究方法》 浙江大学出版社 2009 5. 杨学桢 《数学建模方法》 河北大学出版社 2000 6. 李齐 《微博客传播效果研究——以新浪微博为例》人民网2010 7. 杨柳 《微博时代的网络营销策略》 南京航空航天大学 2010
8. Lin Ruonan , Li Xiangxiang 《 教育机构微博传播效果评估及差异研
究》 Department of Library Science,School of Information Management Wuhan
University Hubei, P.R. China
因篇幅问题不能全部显示,请点此查看更多更全内容
Copyright © 2019- huatuo0.com 版权所有 湘ICP备2023021991号-1
违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com
本站由北京市万商天勤律师事务所王兴未律师提供法律服务