您好,欢迎来到华佗健康网。
搜索
您的当前位置:首页微博语言的复杂网络特征研究

微博语言的复杂网络特征研究

来源:华佗健康网
ComputerEngineeringandApplications计算机工程与应用 微博语言的复杂网络特征研究 马宏炜,陆 蓓,谌志群,黄孝喜,王荣波 MA Hongwei,LU Bei,CHEN Zhiqun,HUANG Xiaoxi,WANG Rongbo 杭州电子科技大学计算机学院认知与智能计算研究所,杭州310018 Institute of Cognitive and Intelligent Computing,Hangzhou Dianzi University,Hangzhou 3 1 00 1 8,China MA Hongwei,LU Bei,CHEN Zhiqun,et a1.Research on MicroBlog language characteristics based on complex net— work.Computer Engineering and Applications,2015,51(19):119-124. Abstract:Based on the large-scale MicroBlog text corpus,three diferent Microblog word CO-occurrence language networks are constructed,and their network characteristics are analyzed by using complex network analysis tools.The main purpose of this paper is to explore the feasibility of applying complex network analysis methods to the MicroBlog text for studying MicroBlog language network’S special characteristics.The experimental results show that the complex network methods are feasible for MicroBlog text.MicroBlog text characteristics are described by the complex network’S parameters,such as degree distribution,clustering coeficifent,average shortest path,etc.This research extends the applications of complex network methods into linguistics domain,and provides an effective data mining method on MicroBlog text based on complex network. Key words:MicroBlog;language characteristics;language network;complex network 摘要:基于大规模微博语料库,构建了3个词同现语言网络,并采用复杂网络分析工具对这些语言网络进行分析。 主要目的是探索复杂网络分析方法应用于微博文本的可行性,进而研究微博语言网络的个性特征。研究结果表明, 复杂网络分析方法在微博文本上是可行的,在复杂网络的相关参数,如度分布、聚类系数、平均最短路径等方面反映 了微博语言的语体特征。该研究不仅拓展了复杂网络方法在语言学领域的应用,而且为基于复杂网络的微博内容 挖掘提供了可行途径。 关键词:微博;语言特征;语言网络;复杂网络 文献标志码:A 中图分类号:TP391 doi:10.3778/j.issn.1002.8331.1309.0425 1 引言 2006年诞生的微博,相比于传统媒体虽然还是一种 新鲜事物,但由于其独树一帜的简短性(每条微博不超 过140字)和普及性(人人都可发微博),近几年得到了 很大的发展。微博的出现极大地促进了信息的传播和 共享,并日益显现出其巨大商业价值。 早期的微博文本相关研究工作主要集中在语言表 面特征分析上。Java等 对微博的概念和作用进行了总 结,分析了微博及时、快速传播的特点,统计了微博使用 增长情况,并根据用户之问的关系,发现了分享相同微 博信息的用户之间的共同点。Kwak等 讨论了微博的 出现对世界的影响,并全面统计分析了Twitter出现三年 来相关的数据,包括日发布数、总发布数、总使用人数 等。邹艳菁 通过使用较大规模的新浪微博语料库分析 了微博的话语特征,以定量分析的形式指出了微博语言 在话语表达倾向上的一些特点。邬智慧 同样通过分析 新浪微博语料,统计分析了微博中的字、词、句的使用情 况,并将微博语言与手机短信语言、博客语言做了对比, 总结出中文微博具有开放性、精炼性、随意性、独特性等 特征。 基金项目:国家自然科学基金青年项目(No.61202281,No,61103101);教育部人文社会科学研究青年基金(No.12YJCZH201)。 作者简介:马宏炜(1988一),男,硕士研究生,主要研究方向为自然语言处理;陆蓓(1960一),女,教授,主要研究方向为自然语言 处理;谌志群(1973一),男,副教授,主要研究方向自然语言处理;黄孝喜(1979一),男,讲师,主要研究方向语言认知计 算;王荣波(1978一),男,副教授,主要研究方向自然语言处理。 收稿日期:2013.09.29 修回日期:2013—12—01 文章编号:1002.8331(2015)19—0119.06 CNKI网络优先出版:2014-02-24,http://www.cnki.net/kcms/doi/1O.3778/j.issn.1002—8331.1309.0425.html ComputerEngineering andApplications计算机工程与应用 在研究微博文本语言特征的同时,研究者们开始尝 语料库和国语委5 000万字人工分词语料库基础上构建 试对微博文本进行处理。对微博文本的传统处理主要 包括文本分类和聚类、信息抽取、话题检测和情感分析 等,主要采用特征提取、分类及聚类算法等文本挖掘方 法。这些方法大部分是基于向量空间模型的,其不足之 处在于采用传统文本处理方法处理微博文本的时候,忽 视了微博的独特特征。由于一条微博的文本限定在140 了汉语词同现网络;刘海涛 基于“实话实说”和“新闻 联播”构建了词共现和句法依存网络。对不同语体的 字、词同现网络的研究表明,这些网络同样都具有复杂 网络的小世界和无标度特性。 语言网络只是研究语言的手段,并不是研究的目 的。除了用复杂网络的理论模型来分析语言网络的各 个字以内,很多微博文本只是一个句子甚至一个短语, 这给传统的文本数据挖掘带来严重的数据稀疏问题。 项参数之外,更重要的是挖掘其在语言研究中的应用。 微博作为语言载体之一,可以通过对微博文本构建语言 本文尝试使用复杂网络的方法来分析微博文本。 自然界中存在的大量复杂系统都可以用网络来描 述,其中具有自组织、自相似、小世界、无标度等特性的 网络称为复杂网络。复杂网络的小世界(small world) 现象和无标度(scare free)特性是20世纪末的两个重大 发现,奠定了复杂网络的理论基础。1998年Watts和 Strogatz 将小世界模型引入到了复杂网络的研究当中, 建立了WS小世界模型。1999年Barab ̄si和Albert 揭 示了复杂网络中的无标度性质,并建立了相应的模型阐 述了这些特性的产生机理。这两篇文章的出现,标志着 网络科学的兴起。 语言系统是一种复杂的网络结构体,其在词语、语 法、语义各个层面上都显示出极其复杂的网络结构。复 杂网络理论的兴起,提供了新的视角来研究人类语言的 本质。通过用计算复杂网络参数的方法来分析语言网 络的特性,可以研究其整体特征,发现人类语言与认知 之间的关系。语言网络的研究课题涉及到了复杂系统、 语言学、自然语言处理、统计学等多个学科,具有重要的 科学意义。 本文基于微博语料库,构建对应的语言网络,并采 用复杂网络分析方法对该语言网络进行分析,得到其整 体特性,并且运用可视化分析方法,对其特征进行研究。 2基于复杂网络的语言研究 各国学者已在语言复杂网络研究方面做了很多的 研究。这些研究涉及到了多种人类语言,其构造原则也 多种多样,包括字同现、词同现、句法依存关系、语义关 系等。英语语言网络的研究已经取得了很多成果。 Cancho和So16 ̄ 在1 000万个词的英语国家语料库基础 上建立了词同现网络和句法网络。Motter和Moura等 基于3 000多个英语单词之间的概念相似性构建了英语 的概念网;Sigman等 基于Wordnet上66 025个名词之 间的语义关系构建了英语的语义网。研究表明这些网 络都表现出复杂网络的基本特征:小世界特性和无标度 特性。 汉语语言网络的研究也已经取得了一些成果。韦 落霞等 o-根据一个基本词集构建了汉语词网络及词组 网络;刘知远等 在《人民日报》1 300万字的人工分词 网络,来对其复杂网路参数进行分析。复杂网络分析技 术可以在大规模真实语料的基础上,通过实证方法来研 究微博语言网络的特征,加深对微博这种新兴语言形式 的了解。复杂网络方法有益于对以下问题的了解:微博 语言网络的特征;不同文体网络结构的特征;复杂网络 作为语言研究手段的可能性;语言网络作为微博信息挖 掘手段的可行性。 3微博语言网络模型 基于复杂网络的微博语言特征研究主要分为以下 几个步骤:微博数据获取和预处理;词同现网络构建;复 杂网络整体参数分析;结果可视化等。下面对各个步骤 进行说明: (1)微博数据获取和预处理。根据任务需求,获取 相应的微博数据,并对数据进行预处理,去掉其中的冗 余数据和结构,得到结构相对简单的文本待进一步利 用。主要任务:①去掉其中的用户名、@用户名、转发关 系和网络链接地址,提取出需要的微博内容部分;②剔 除处理后长度过短的文本。 (2)词同现语言网络的构建。所谓词同现,是指在 一个句子中间隔距离小于某个n值的两个词语,在该距 离内的词可以称为共词关系。 (3)语言网络复杂网络参数定量分析。将构建出的 词同现网络导入到复杂网络分析软件中计算得到复杂 网络参数。 (4)结果可视化。将词同现网络的复杂网络分析结 果以可视化的形式直观地展示出来。 (5)最后,利用网络分析的结果和其他语体的类似 网络进行对比,得出微博文本网络的特性。 3.1微博词同现网络的构建 对于语言网络的构建,首先要解决的问题是网络中 的节点和边代表什么。对词法网络来说,语料库中的每 个词,对应着同现网络中的一个节点。如果在一个句子 中,两个词之间在小于n的邻间距离条件下存在同现关 系,则认为网络中相应节点之间存在一个链接。依次对 语料库中的所有句子进行上述处理,便构建出词同现网 络。刘知远等构建的词同现网络表明,邻间距离的n取 2比较合适,一方面可以真实反映上下文之问的约束关 马宏炜,陆蓓,谌志群,等:微博语言的复杂网络特征研究 其中Ⅳ是网络中的节点数。设网络节点的平均度为 系,另一方面可有效降低网络的复杂程度 ”。 对=f微博作为语料库的词同现网络的构建,首先要 解决的就是每条微博内容的分词问题。微博文本中充 <七>,对“小世界网络”,则有: L≈in(N)/In(< >) (2) 斥着语言的不规则使用现象,并且有大量的新词出现。 在选择分词工具的时候考虑到要有新词发现的能力,并 且支持自定义词库,对于少数不能通过分词工具得到的 词语,可以将其添加到自定义词库中,通过人工干预得 到准确度相对高的分词结果。实验中采用了Python作 为文本处理工具,对微博语料库进行预处理和清理工 作,为了便于处理,分词工具选择了Python中的中文分 聚类系数是用来衡量网络聚类倾向的指标,反映了 其相邻节点构成集合的聚集程度。设网络节点i有k 个节点与它相连,E 是其k个邻接点之间实际存在的 边数,那么E.与这k个节点之间最多可有的边数 k(k一1)之比就成为该节点i的聚类系数C: 2E , ,、 、 一k(k—l1 、 词组件结巴分词。该分词组件采用基于图的动态规划 整个网络的聚类系数c为所有节点聚类系数c 的 平均值: Ⅳ 查找最大概率算法,从所有可能成词情况所构成的有向 无环图中找出基于词频的最大切分组合。对于未登录 词,采用了HMM模型和Viterbi算法。实验结果表明, 该分词组件对微博的分词基本可以满足需求。 一c= ∑c ’f=l (4) 其中Ⅳ为网络的节点数。 个词同现网络可以抽象成为一个无向图G,顶点 V代表词集,边 代表两个词之间的同现关系。当构建 出网络a(V,E)之后,可以对该网络进行分析。在语言网 络中,网络的平均最短路径代表网络中任意两个词之间 有联系的最短距离,聚类系数代表与该词有联系的词之 利用网络的平均最短路径长度和聚类系数,可以来 衡量网络是否具有小世界特性。小世界指的是这样一 种网络:虽然网络很庞大,但网络中任意两个节点间都 存在一条较短的路径相互连接,聚类系数要比随机网络 大的多,即L L ,C》C 。L 和c 代表用同样边数 和节点数构建的随机复杂网络的平均最短路径和聚类 系数。 间的聚集倾向,度分布代表该词与其他词的结合能力。 下面给出由一条真实微博文本生成汉语词同现网 络的简单示例。 (2)无标度特性:度分布 度数即网络中某个节点i拥有相邻节点的数目,对 于有向图来说,度数又分为入度与出度。网络中度为k 的节点所占的比列称为度分布,用度分布函数e(k)来 描述。P(k)的期望< >称为网络的平均度分布。度 分布服从幂律分布的网络叫作无标度网络。 这条微博的原始内容为:“我好象不太喜欢听上海 话…我:喜欢听粤语”。先将微博中的内容根据标点符号 分句,得到“我好像不太喜欢听上海话”和“我喜欢听粤 语”两个句子。然后分别对这两个句子分词得到的词同 现网络如图1所示。 4实证分析 4.1实验描述 实验利用了从爬盟中国上下载的2012年5月25日 起一周内加V用户发表的4万条微博作为实验语料。 应用本文提到的理论和方法,考查微博词同现网络的复 杂网络性质。每条微博包括消息原始ID、微博内容、转 发数和评论数、用户名称、发布时间等字段。 图1 由一条微博生成的词同现网络 为了考察不同网络规模下微博文本的网络特性,设 计了3组实验,分别构建3个不同规模的词同现网络。 第一个网络简称为CW1,是从5万条微博中随机选取了 2 000条构建的网络;第二个网络简称为CW2,是从5万 条中随机选取了6 300条构建的网络;第三个网络简称 为CW3,是从5万条微博中随机选取20 000条来构建网 络。构建出词同现网络之后,再分别对网络进行复杂网 络参数分析,计算其复杂网络参数。 3.2 网络参数 在复杂网络上,通常可以通过以下几个参数来分析 其网络的复杂性。 (1)小世界特性:平均最短路径长度和聚类系数 网络中两个节点i和,之间的最短路径是di 指链 接这两个节点的边数最少的路径。无向网络的平均最 短路径长度三是任意两个节点之间距离的平均值,见公 式(1): 4.2微博词同现网络的特征 3个不同规模微博网络的节点度分布情况见表1, 表1显示了网络中节点度分布的统计值。四分之一分 丽 Computer Engineering andApplications计算机工程与应用 位数、中位数、四分之三分位数指的是节点的度由小到 大排列后第25%、50%、75%的数字;平均数指的是所有 节点的平均度。通过表1可以发现:CW1、CW2和CW3 的度分布最小值、四分之一分位数、中位数都相同。不 法网络研究了词频最高的虚词“的”、“了”和“在”这3个 节点的网络特性,得出虚词是网络中的中心节点的结 论。一旦去除这些词,会影响网络整体结构。同样在微 博文本构建的词同现网络中,这3个虚词也是网络的中 心节点。不仅如此,经过对比,可以发现“是”这个词在 同之处在于度分布的平均值、四分之三分位数和最大 值。CW1度分布最大值为3 479,平均值为4.912,四分 之三分位数为3。CW2度分布的最大值为8 901,平均 值为6.621,四分之三分位数为4。CW3度分布的最大 值为17 575,平均值为9.128,四分之三分位数为5。由 此可见,微博中只出现过一次或两次的词汇占到了一 半。这与微博的语体特征是符合的,一方面词语使用不 规范的现象在微博中普遍存在,会出现大量的新词。另 微博中词频排名要比“实话实说”和“新闻联播”要高的 多,其度数比“在”这个字要高。“是”在句子中主要起肯 定和联系的作用,并可以表示多种关系。由此可以推断 微博和“实话实说”与“新闻联播”这两种语体相比,微博 的内容更多的跟发布者自身相关,多用来表达自己的认 知,更加愿意分享自身的活动。这与发布微博的目的也 是相符的。可以认为,“是”是对语体敏感的词语。 方面微博内容覆盖面广,内容多来源于微博用户的日 常生活。所以一段时间内的微博可能涉及到生活中的 一表3中E代表复杂网络的边数,在构建网络过程 中,将多重边合成为一条边,多重边的数量作为边的属 各个方面,其词汇的重复率相比小说、新闻稿等规范文 本要低的多。不仅如此,通过比较这3个规模由小到大 的网络的度分布情况可以发现,随着网络规模的增大, 新加入的节点会与已经存在的节点相连接,这就会导致 性存储;N代表复杂网络的节点数,< >代表平均度 分布,c代表聚类系数,三代表平均最短路径长度, … 代表相同边数和节点数的随机网络的平均最短 路径,C 。 代表相同边数和节点数的随机网络的聚类 系数;r(s)代表计算这些参数所需时间,单位为S(计算 环境为Intel双核E4600,2 GB内存)。通过观察发现,平 均最短路径CW1为3.78,CW2为3.54,CW3为3.34,聚 类系数CW1为9.79×10一,CW2为9.6×10~,CW3为 度分布最大值增大,度分布平均值增大。这与实际生活 中词语的使用情况是相符的,不断会产生词语的新用 法,出现新的词语搭配使用情况。 表2给出的是3个网络中度数排名前10的词语。 观察表2发现,虽然3个网络的规模不同,但网络度数前 10的节点基本是一致的。不同之处在于CW1节点度数 前10的词其度数并不像CW2和CW3一样是严格递减 分布的。可以认为这是由于CW1的规模小,低于能正 常反应词语使用情况的阈值,因为部分常用词语还未得 1.195×10~。虽然得到的网络很庞大,但其平均最短 路径都很小,并且满足L 特性。 d0m和c》CHnd0m,由此可 以得出结论:这3个词同现网络符合复杂网络的小世界 接下来计算网络节点累积度分布,以度为X轴,累 到充分使用。在语言网络中,节点的度是由词节点本身 所具有的配价能力决定的u 。通过分析发现,这10个词 主要是虚词和指示代词,前者有着重要的粘着成句作 用,而后者具有指示作用。陈芯莹等n 通过用“实话实 积度分布为Y轴,得到其累积度分布曲线见图2。累积 度分布是度不少于k的节点的分布概率: P( ):∑Pr(j) =k (5) 说”和“新闻联播”两种不同语体的语料库构建的依存句 可以看到3组实验结果都服从幂律分布,显示了其 表1节点的度分布情况 表2 CWl、CW2和CW3度数前10的词语 表3其他复杂网络参数 Computer Engineering andApplications计算机工程与应用 表4验证网络CW4参数 表5词同现网络的基本数据 络中度大的节点,其介数和PageRank值也大,节点聚 类系数和其度之间基本是负相关关系,对于度大的节 点,其聚类系数小。紧密度和节点的度之间不存在明显 的正相关关系。 由上面的分析可知微博词同现网络符合复杂网络 的小世界和无标度特性,那么在更大规模的微博语料的 基础上构建的词同现网络是否还符合这些特性。为了 验证本文的结论,使用全部的5万条微博语料构建了一 个更大的词同现网络CW4,并且对其参数进行了计算, 结果见表4。 由表4可知,词同现网络CW4仍然满足L d0m和 c》C ,这说明其仍满足复杂网络的小世界特性。 累计度分布见图4,其结果服从幂律分布,满足复杂网络 的无标度特性。 E—O1 E—O2 E—O3 E一04 E—O5 Degree 图4验证网络CW4累积度分布 4.3微博词同现网络和规范文本词同现网络参 数对比 刘知远等 u基于不同规模和类型的语料库,建立了 词同现网络,其语料来源是北京大学《人民日报(1998 年上半年)》1 300万字左右的人工分词语料库和国家语 委5 000万字左右的人工分词语料库。前者是新闻语 料,后者则包含了各种题材的文本。其生成词同现网络 的语料和本文采用的微博文本不同,更加规范并且经过 人工分词。对微博词同现网络和这类规范文本词同现 网络的参数做对比,见表5。 表中CPD12是《人民日报(1988年上半年)》第1-2 月份词语料库的词同现网络数据,引自文献[11]。比较 表4中CW1、CW2和CW3的参数可以发现,随着网络规 模的上升,网络的平均度< >和聚类系数c会随着增 大,新的词会被加入到原有的语言当中,原来很少使用 的词越来越被人们熟知并使用。相反地,发现网络的平 均最短路径三随着网络的增大有减小的趋势,这说明网 络中词与词之间的跳转更加的容易了,越来越多的词被 人们拿来一起使用。把本文构建的微博词同现网络 CW3和《人民日报》规范文本且经过人工分词处理的语 料库构建的词同现网络CPD12对比,可以发现网络的 平均度< >和聚类系数C要小得多,这也是符合预期 的,在微博语言网络的度分布情况就可以看出,一半以 上的节点的度都是1或者2,在微博中有更多的新词或 者语言的不规范使用情况。不仅如此,CW3的平均最 短路径 也比CPD12的要大,这说明微博中任意两个 词之间有联系的距离要比规范文本要远,这与微博语言 使用的不规范也是有关的。 5结束语 基于新浪微博的大规模语料库,构建了3个不同规 模的词同现网络,并通过实验揭示了微博词同现网络上 的小世界效应和无标度特性。不仅如此,还通过构建更 大规模的词同现网络验证了结论。虽然微博文本存在 着开放性和随意性的特征,但在词同现网络上表现出了 类似的复杂网络特性。然后对其复杂网络参数做了相 关性分析,验证了节点的度是决定词网络参数的主要因 素。最后与由规范文本构建的词同现网络做了对比,发 现其复杂网络参数跟其词汇的使用情况是相关的。本 文从定量分析的角度验证了微博的语体特点,验证了复 杂网络作为语言研究的手段在微博这一新兴语言载体 形式上是有效的。但是,作为一种新的微博研究方法, 本文也存在不足之处:一方面是语料来源问题,本文构 建的微博语言网络,其语料来自爬虫抓取的一段时间内 的微博,在内容方面涉及到的范围太广,进一步工作可 以尝试抓取某一话题的相关微博或是某条热门微博的 评论等;另一方面考虑到微博依存句法分析的难度,本 文构建的是词同现网络,难免忽视了语言本身的词语之 间的依赖关系,微博依存句法网络的构建与分析是今后 研究的重要课题。 (下转193页) 徐杰,崔崤蛲,向永嘉,等:分布相关的曲波阈值超声图像去噪方法 2015,51(19) 193 参考文献: [1]万明习,宗瑜瑾,王素品.生物医学超声学[M] 京:科学出 版社,2010:531-544. [2]Devarapu K V,Murala S,Kumar V.Denoising of Ultrasound ment:from error visibility to structural similarity[J] IEEE Transactions on Image Processing,2004,1 3(4) 1.14. 【l1]Lazrag H,Naceur M S.Despeckling of intravascular Images using Curvelet Transform[C]//Proceedings of the 2nd International Conference on Computer and Automation Engi— ultrasotmd images using curvelet transform[C]//Proceedings of the 6th International Conference on Sciences of Elec. tronics,Technologies of Information and Telecommunica- neering(ICCAE),2011:447—451. [3]Cand6s E,Demanet L,Donoho D,et a1.Fast discrete curvelet transforms[J].Multiscale Modeling&Simulation,2006,5(3): 861.899. tions(SETIT),2012:365—369. 【121 Yousefi Rizi F,Ahmadi Noubari H,Setarehdan S K.Wavelet— based ultrasound image denoising:Performance analysis [4]李伟,杨航.曲波域经验Wiener滤波[J].吉林大学学报:理 学版,2013,51(2):312-316. [51 Cand6s E,Demanet L,Ying L.CurveLab toolbox user’s guide.Version 2.0.3. and comparison[C]//Proceedings of IEEE EMBS Annual Internationa1 Conference.20 l1. [13】Rabbani H,Vafadust M,Abolmaesumi P.Speckle noise reduction of medical ultrasound images in complex [6]栗明,郭东敏,权建峰,等.基于提升小波的改进半软阈值 降噪方法[J].探测与控制学报,2009,31(4):54—57. wavelet domain using mixture priors[J].IEEE Transactions on Biomedical Engineering,2008,55(9):2152—2160. [7]周西峰,朱文文,郭前岗.基于渐近半软阈值函数的超声信 号去噪方法[J].探测与控制学报,2011,33(2):35—39. [8]Chen Y,Raheja A.Wavelet lifting for speckle noise reduc- tion in ultrasound images[C]//Proceedings of the Confer— ence on Engineering in Medicine and Biology Society [14】Gupta S,Chauhan R C,Saxena S C.A wavelet based statistical,approach for speckle reduction in medical ultra— sound images[J].IEE J Int Fed Med Biol Eng,2004, 42:189.192. (IEEE.EMBS 2005),2005:3129.3132. [1 5]Rabbani H,Vafadust M,Selesnick I,et a1.Image denoising employing a mixture of circular symmetric Laplacian models [9】王文波,羿旭明,费浦生.基于曲波系数相关性的去噪算法[J]. 光电子・激光,2006(12):1520.1521. [10]Wang Z,Alan C,Sheikh H R,et a1.Image quality assess— with local parameters in complex wavelet domain[C]// Proc of ICASSP 2007,2007:805.806. (上接124页) Series B Biological Sciences,200 1,268:226 1—2265. [8]Motter A E,de Moura A P S,Lai Y C,et a1.Topology 参考文献: [1]JavaA,Song X,Finin T,et a1.Why we twitter:Understanding microblogging usage and communities[C]//Proceedings of the Joint 9th WebKDD and 1 st SNA—KDD Workshop。 2007:56—65. of the conceptual network of language[J].Physical Re- view E,2002,65(6):065102. [9]Sigman M,Cecchi G A.Global organization of the Word— net lexicon[c]//Proc of the National Academy of Sciences, 2002,99(3):1742—1747. [2】Kwak H,Lee C,Park H,et a1.What is Twitter,a social network or a news media[C】//Proceedings of the 1 9th Inter・ national Conference on World Wide Web,2010:591.600. [10】韦洛霞,李勇,康世勇,等.汉语词组网的组织结构与无标 度特性[J].科学通报,2005,50(15):1575.1579. [11】刘知远,孙茂松.汉语词同现网络的小世界效应和无标度 特性[J].中文信息学报,2007,21(6):52.58. [1 2]Haitao Liu.The complexity of Chinese syntactic depen. [3]邹艳菁.基于语料库的中文微博话语特征研究初探[J]_中国 报业,2012,18:101-103. [4]邬智慧.中文微博的语体特征研究[D】.武汉:华中师范大 学,2012. [5]Watts Duncan J,Strogatz Steven H.Collective dynamics dency networks[J].Physica A:Statistical Mechanics and its Applications,2008,387(12):3048.3058. of“small—world”networks[J].Nature,1998,393(6684): 440—442. [13]刘海涛,冯志伟.自然语言处理的概率配价模式理论[J].语 言科学,2007,6(3):32—41. 【14]陈芯莹,刘海涛.汉语句法网络的中心节点研究fJ】.科学通 报,2O11,56(10):735.740. 【1 5]Mihalcea R,Tarau ETextRank:Bringing order into texts[C]// Proceedings of EMNLP 2004.2004:404.4 11. [6]L ̄iszl6 B A,R6ka A.Emergence of scaling in random networks[J].Science,1999,286(5439):509-512. 【7】Cancho R F,So16 R V.The small world of human lan. guage[J].Proceedings of the Royal Society of London: 

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- huatuo0.com 版权所有 湘ICP备2023021991号-1

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务