社交媒体数据的获取分析

来源：华佗健康网

软件２０１５年第３６卷第２期　Ｓ０ＦＴ　ｒＡＲＥ　国际ＩＴ传媒品牌　用　社交媒体数据的获取分析　王铁刚　（北京邮电大学计算机学院，北京　１００８７６）　摘要：本文主要介绍了对于社交网络中媒体数据的获取分析。首先介绍了一般的获取策略，即获取数据的一般　过程。然后根据当前情况，主要是对两种方式进行分别分析。并在两种方式上分别提出了提高效率的一般方法。最后　对这两种获取方式进行性能比较，并做出总结。　关键词：媒体数据；方式；分析；效率　中图分类号：ＴＰ３９３　文献标识码：Ａ　ＤＯＩ：１０．３９６９／ｊ．ｉｓｓｎ．１００３—６９７０．２０１５．０２．０１９　本文著录格式：王铁刚．社交媒体数据的获取分析Ⅱ］．软件，２０１５，３６（２）：８６—９１　Ａｃｑｕｉｓｉｔｉｏｎ　ａｎｄ　Ａｎａｌｙｓｉｓ　ｏｆ　Ｓｏｃｉａｌ　Ｍｅｄｉａ　Ｄａｔａ　ＷＡＮＧＴｉｅ—ｇａｎｇ　（ＣｏｌｌｅｇｅｏｆＣｏｍｐｕｔｅｒＳｃｉｅｎｃｅ，Ｂｅｉｉｎｇ　ｆＵｎｉｖｅｒｓｉｔｙｏｆＰｏｓ￣ａｎｄ　，Ｂｅｉｉｎｇ１００８７６，Ｃｈｉｆｎａ）　［Ａｂｓｔｒａｅｔｌ：Ｔｈｉｓ　ｐａｐｅｒ　ｄｅｓｃｒｉｂｅｓ　ｔｈｅ　ａｃｑｕｉｓｉｔｉｏｎ　ｏｆ　ｓｏｃｉａｌ　ｎｅｔｗｏｒｋ　ｆｏｒ　ａｎａｌｙｚｉｎｇ　ｍｅｄｉａ　ｄａｔａ．Ｆｉｒｓｔ　ｉｎｔｒｏｄｕｃｅｄ　ｔｈｅ　ｇｅｎｅｒａｌ　ａｃｑｕｉｓｉｔｉｏｎ　ｓｔｒａｔｅｇｙ，ｔｈａｔｔｈｅ　ｇｅｎｅｒａｌｐｒｏｃｅｓｓｏｆｄａｔａａｃｑｕｉｓｉｔｉｏｎ．Ｔｈｅｎｂａｓｅｄｏｎｔｈｅ　ｃｕｒｒｅｎｔ　ｓｉｔｕａｔｉｏｎ，ｍａｉｎｌｙｆｏｒ　ｓｅｐａｒａｔｅｌｙ　ａｎａｌｙｚｅｄ　ｉｎ　ｗｏ　ｗａｙｓ．Ａｎｄ　ｔｎ　ｉｈｅ　ｔｔｗｏ　ｗａｙｓ　ａｒｅ　ｐｒｏｐｏｓｅｄ　ｔｏ　ｉｍｐｒｏｖｅ　ｈｅ　ｇｅｎｅｒｔａｌ　ｅｆｉｃｉｆｅｎｃｙ　ｏｆｔｈｅ　ｍｅｔｈｏｄ．　Ｆｉｎａｌｌｙ，ｔｈｅｓｅ　ｗｏ　ｗａｙｓ　ｔｏ　ｏｂｔａｉｔｎ　ａｐｅｒｆｏｒｍａｎｃｅ　ｃｏｍｐａｒｉｓｏｎ　ａｎｄ　ｃｏｎｃｌｕｄｅ．　［Ｋｅｙ　ｗｏｒｄｓ］：Ｍｅｄｉａ　ａｔｄａ；Ｗａｙ；Ａｎａｌｙｓｉｓ；Ｅｆｉｃｉｆｅｎｃｙ　０　引言　随着互联网的快速发展，世界范围内的互联网用户也在急剧膨胀，各种言论充斥其中，人们利用手机、　电脑可以随时随地通过论坛、ＢＢＳ、ＳＮＳ等更新自己的动态、发表言论。　微博作为Ｗｅｂ２．０时代络的应用形式，它集成了手机短信、博客和社交网站的优点，使信息更加　实时、内容更加简洁、社区更加活跃【ｌｊ。在最近几年，因为其内容短小、实时性、便捷行、原创性、互动性　和大众的特点已经被人们广泛接受，用户可以随时、随地利用移动终端发布文字、图像、视频等，草根与　名流共同创造、传播和分享着信息，进行着没有界限的对话。　随着微博的普及，微博的传播速度也越来越快，其导向的作用也越来越突出。同时，信息量在传　播中变得海量　Ｊ。通过对微博信息进行挖掘和分析，关注其中的社会热点话题，可探寻其规律并预测动向，　分析热点事件的趋势，特别是微博信息传播的实时性可以应用于突发性社会事件和自然事件的监测和　预警【３】。“工欲善其事必先利其器”，要想对微博数据进行研究，获得微博平台上大量的数据是要做的第一步。　本文旨在对微博采集的方式进行分析，为实现对微博数据的高效抓取提供依据，并对其性能进行测试，为　建立统一的数据采集平台提供方便，以便后续挖掘。　微博采集主要有两种方式，分别是开放ＡＰＩ与网页解析。基于新浪ＡＰＩ的数据抓取策略性能高，但是　因为服务器不能获取完整的数据集；基于网页解析的方案可以获得最大的数据文本，但是效率却比ＡＰＩ低。　系统实现依赖的具体技术有：媒体的爬取策略、Ｗｅｂ２．０下ＯＡｕｔｈ认证、多线程技术、ｈｔ勺ｐ协议下载技　术、ｘＭＬ数据集成、分布式技术。　１社交媒体爬虫介绍　大多数的社会媒体，例如Ｆａｃｅｂｏｏｋ、Ｔｗｉｔｔｅｒ、新浪微博等均提供了数据访问的ＡＰＩ接口，其获取方式　作者简介：王铁￣ＪＪＩ（１９８８－），男，硕士研究生，北京邮电大学可信分布式计算与服务教育部重点实验室，主要从事信息安全方面研究　王铁刚：社交媒体数据的获取分析　类似。先简单介绍主流的社会媒体的网络爬虫原理。　主流的社交网络均在一定程度上开放了数据平台，提供了数据访问的ＡＰＩ接口。调用社会媒体的ＡＰＩ　接口函数，获取人物的背景信息、社交信息、发布信息、交互信息。社交网络的信息主要通过ＨＴＴＰ的方　式进行传递（图１），获取方式是ＨＴＴＰ请求。社会网络在开放平台提供的基本ＡＰＩ接口基础之上，又封装了　不同语言的ＳＤＫ，主要有Ｊａｖａ、ＰＨＰ、Ｊａｖａｓｃｒｉｐｔ、Ｆｌａｓｈ等，可根据数据的不同而选择不同的开发语言，尽　量减少请求次数和数据传输量，提高系统的分析效率Ｌ４Ｊ。社会网络的信息获取主要有以下几个重要部分：　①权限验证：社会媒体的信息获取必须在权限允许之内，请求的数据不涉及隐私，是可公开的。　②注意事项：使用者的请求在一定的时间内是有次数的，所以要合理的使用请求。　二＝＞　一　二／　＝　—＋　数据存储　＼　＼　／　图ｌ　社会网络的数据获取过程　依据上述原理，网络穿透对抗技术相关的特定人　群所组成的社会网络，先简单介绍社会网络的网络爬　虫算法，如图２。　选择一组人物作为初始的种子节点，利用雪球采　样策略，顺着人物的关注链向外爬行，获取社会网络　上每个人物节点的背景信息、社交信息，探测出整体　网络。主要思想如下：　１．选择一组社会媒体的人物｛ＩＤ１，ＩＤ２，…　）　作为种子节点，加入待爬行节点队列Ｑ。　２．如果Ｑ＝ＮｕＬＬ或超过阈值（预设的爬行时间或　扩展层数）则退出；否则，从Ｑ中取出一个用户ＩＤ　３．利用社会媒体的数据访问ＡＰＩ访问函数，抓　取该用户节点ＩＤｋ的个人信息，将人物的背景信息（位　置信息、标签、个人描述）、社交信息（关注信息、粉　丝信息），分另Ｕ存入社会网络数据库。　４．扩展该节点　，将其邻居节点（，Ｄ　的关注列　表中全部用户ＩＤ）加入Ｑ，转到２。　利用元搜索技术，探测初始的网络穿透对抗技术　相关的特定人群所组成的社会网络。在探测出的社会　网络上，获取了一组初始的特定人群节点。在此基础　上，利用关系分析技术，对上述的初始的特定人群节　图２社会网络爬虫的工作原理　点进行扩展，生成特定人群节点集合，组成待检测的　人物频道列表。然后利用面向人物频道列表的网络爬虫，侦听每个人物频道发布、转发、评论的信息流（微　博、博客、帖子等）。面向人物频道列表的网络爬虫的工作原理比较简单。即：对于待检测的人物频道列表，　定时爬行每个人物频道发布、转发、评论的信息流。　２基于ＡＰＩ的数据获取　２．１　Ｏａｕｔｈ认证　以新浪为例，使用ＡＰＩ首先要解决的是用户认证问题。所谓认证是指用户在不向第三方（比如我们的采　８７　（＜软件》杂志欢迎推荐投稿：ｅｏｓｏｆｔ＠１６３．ＣＯｌｌｌ　王铁刚：社交媒体数据的获取分析　Ｅ．Ｒｅｑｕｅｓｔ　Ｔｏｋｅｎ授权后，使用者将向Ａｃｃｅｓｓ　Ｔｏｋｅｎ　ＵＲＬ发起请求，将上步授权的Ｒｅｑｕｅｓｔ　Ｔｏｋｅｎ换取　成Ａｃｃｅｓｓ　Ｔｏｋｅｎ。请求的参数见下图，这个比第一步Ａ多了一个参数就是Ｒｅｑｕｅｓｔ　Ｔｏｋｅｎ。　Ｆ．ＯＡＵＴＨ服务提供商同意使用者的请求，并向其颁发Ａｃｃｅｓｓ　Ｔｏｋｅｎ与对应的密钥，并返回给使用者。　Ｇ．使用者以后就可以使用上步返回的Ａｃｃｅｓｓ　Ｔｏｋｅｎ访问用户授权的资源。　这里要说明的是：　（１）新浪官方虽然要求第三方应用访问用户的某些资源（如用户的好友列表）时要有该用户的亲自认证，　但是还有一些（如用户的基本信息）资源是不需要该用户亲自认证的（也就是说，对于这类资源来说，只要有　一个用户通过了验证，就可以利用这个用户ＡｃｃｅｓｓＴｏｋｅｎ访问包括这个用户在内的所有用户的资源）。因此，　我们注册了一些马甲账号，自己通过认证，利用ＡＰＩ采集此类信息。　（２）认证过程中，账号密码的输入是在浏览器中进行的，ＡｃｃｅｓｓＴｏｋｅｎ的返回也是在浏览器的ＵＲＬ中，　这些都需要手动干涉。如何消除手动干涉的动作，将在Ｈｔｑｐ协议下载技术中进行说明。　２．２多线程技术　新浪微博的数据量是十分庞大的，单线程会严重降低采集效率；无论是ＡＰＩ还是Ｗｅｂ爬虫都不可能做　到无的采集（每个ＩＰ地址只有１０００次调用ＡＰＩ的权限，Ｗｅｂ爬虫采集过于频繁也会被封号或者风ＩＰ）。　采用单线程，一旦出现封锁的状况，程序就会崩溃，不得不重新配置启动；最后，我们分别用ＡＰＩ和页面　解析的方式获取不同的数据，当然也希望这两项工作同时进行。因此多线程是最理想的方式。图５为用户　细心采集模块流程图。　图５利用ＡＰＩ进行用户信息采集　３利用页面解析技术采集微博信息　３．１　ｈｔｔｐ协议下载技术　前面提到的在不启动浏览器的前提下进行认证、模拟登陆（浏览器浏览微博时，如果不登陆的话就只能　浏览极少的一部分页面，页面下载也是如此，我们请求页面是需要在附加登录信息，如ｃｏｏｋｉｅ）和微博的采　集都依赖ｈｔｔｐ协议下载技术。　８９　软件》杂志欢迎推荐投稿：ｃｏｓｏｆｔ＠１６３．ｃｏｒｎ　王铁刚：社交媒体数据的获取分析　Ｐｙｔｈｏｎ的ｕｒｌｌｉｂ，ｕｒｌｌｉｂ２等几个模块提供了实现ｒｅｑｕｅｓｔ请求的发送和相应的接收，我们只需要构造自　己的ｐｏｓｔ数据和ｈｅａｄｅｒ（ｐｏｓｔ和ｈｅａｄｅｒ内容通过抓包分析获得）。微博采集请求页面时需要携带ｃｏｏｋｉｅ，所以　我们还必须设置ｃｏｏｋｉｅ处理器来保证ｃｏｏｋｉｅ，这通过ｃｏｏｋｉｅｌｉｂ模块实现。　利用ｈｔｔｐ协议下载技术下载微博信息流程与利用ＡＰＩ进行用户基本信息采集类似。　３．２　ＸＭＬ数据集成　因为我们采用不同的方式获取用户基本信息和微博列表、好友列表等，因此返回的数据格式是不一致　的；我们若要开发一个针对各个微博的采集系统，而每个微博平台的数据结构也存在差异。ＸＭＬ作为轻量　级的数据储存文件，具有：内容和结构完全分离、互操作性强、规范统一、支持多种编码、可扩展性等优　点。为了方便后续的数据分析，我们采用ｘｍｌ定义数据进行集成存储。见图６。　图６数据集成格式　３．３分布式技术　微博的数据量十分庞大，采用一台爬　虫机会耗费大量时间，而且容易引发封　号、封ＩＰ；多个爬虫程序又可能引发数据　大量冗余，因此我们采用分布式的爬虫框　架【ｏ　Ｊ，如图７。　整个爬虫程序分为三个部分。　Ｓｃｈｅｄｕｌｅｒ：一个简单的调度器，主要　ＤＢ　作用分配ＵＩＤ给每个ｗｏｏｅｒ，并响应　Ｍｏｎｉｔｏｒ命令。　图７分布式架构示意图　Ｍｏｎｉｔｏｒ：监控程序，收集各个ｗｏｏｅｒ　程序的心跳，并有一个ｗｅｂ接口。用户可以在Ｍｏｎｉｔｏｒ进行设置。　Ｃｒａｗｌｅｒ：爬虫ｗｏｒｋｅｒ程序，每个ｗｏｒｋｅｒ从Ｓｃｈｅｄｕｌｅｒ拿到ＵＩＤ，就去抓取这个微博用户数据。　软件》杂志欢迎推荐投稿：ｃｏｓｏｆｔ＠１６３．ＣＯｌｌｌ　９０　

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文