高玲等,基于Web的智能信息检索方法研究 基于Web的智能信息检索方法研究 Research on the Mechanism of Web-based Intelligent Information Retrieval 高玲 ,李春生 ,杨冬黎 (1.大庆油田图书馆,黑龙江大庆163300;2.东北石油大学,黑龙汀大庆,163318) GAO Ling .LI Chun—sheng and YANG Dong—li f1.Daqing Oilielfd Library,Dcuting 163300,China; 2.Northeca ̄t Petroleum University.Da7ing 163318,China) 摘要:随着互联网技术的不断发展,网络日益成为人们 _[=作和生活中获取信息的重要来源。但是,由于Web的外放性和异构性, 使得用户很难从纷繁复杂的海量信息中快速找到对自己有价值的信息。本文将中文分词特征提取思想与文本分类算法相结合,通过 对概率模型的改进,提出了基于Web的信息检索模型,并将其应用到石油安全生产信息检索中。通过用已知样本进行训练,确定每 类的阈值,实现了对石油安全生产相关文档的分类。 关键词:Web,信息检索,文本分类 中图分类号:TP 391.3 文献标识码:A 文章编号:1674~8646(2【)l1)05—0020—04 Abstract:With the development of network techniques,the lnternet is becoming an important method for gathering information resourees in our work and lives.However,it is diiculft for OS to find valuable message quickly from the mass and complicated information because Webs are of the open and het— erogeneous characteristics.In this article,we contribute a web—based information retrieval model based on the modiicatfion of probability model by cmnbiu— ing feature extraetion of Chinese Word Segmentation and text sorting algorithm.At the sanle time,the model is applied in information retrieval for producing petroleum safely. Fhe threshold of each category for producing petroleum safely has been set by training the model with given samples.The system of retriev— ing relevant doemnent f0 producing petroleum safely is implemented. Key words:WEB;information retrieval;text sorting Web为用户提供海量信息的同时,也带来了大量 的噪声,用户对大量的无关信息淹没对自己有价值的 信息已经无法忍受…。所以即时的处理大量信息,提高 信息检索系统的准确率,使用户可以快速找到自己所 将大量分散无序的web页信息集中起来,经过加J_ 整 理,使之形成有序化、系统化的语料库;(2)结合信息检 索模型的相关理论、关键技术,选择在检索模型中应 用概率的计算方法I ;(3)通过运用统计的学习方法,实 现模型对检索结果的优化与完善。用已知的石油安全 生产方面的文档,对模型的检索结果不断地进行训 练,从而使模型在多次交互操作之后,得到的检索结 果逐步接近用户提问的理想命中结果。 需要的信息已经变得势在必行,Web信息检索受到越 来越多的重视 。Web信息检索与传统信息检索有所 不同:一 是信息资源海量,用户对查全率的追求降低, 查准率要求越来越高;二是文档之间的超链接结构是 Web信息检索和传统信息检索的又一区别 1,链接描 述文档对网页主题的概括有高度的精确性,由此产生 1基于Web的信息检索模型设计 建立信息检索模型是实现检索系统的基础,基本 设计要求如下:(1)语料库足够大,检索到的数据能满 足一般用户需求;(2)用户操作界面简单,用户可以很 方便地输入检索请求;(3)检索出的信息能够达到用广I 的要求,并能按照合理的顺序显式给用户,并日町以 基于超链接结构的检索技术;三是Web上的文本数 据大部分用HTML书写,使用HTML标签对网页的修 饰作用进行信息检索。 本文以石油安全信息检索为例,应用分类算法和 中文分词的关键技术,研究了信息检索模型及其实 现。具体包括:(1)以石油安全生产方面的Web页为例, 收稿日期:20Il—O4—27 基金项目:黑龙江省教育厅科研基金项日。(编号:125l1010)。 作者简介:高玲(1973一),女,河北省徐水县人,工程师。研究方向为信息榆索与信息处理。 通讯作者 黑龙江科学 2011年第2卷第5期 HEILONGJIANG SCIENCE 对显示的信息进行分类处理。 1.1模型结构设计 信息检索是利用一定的检索算法,借助于特定的 检索工具,针对用户的检索需求,从结构化或非结构 化的数据中获取有用信息的过程。把整个信息检索过 程刻画为三个方面:信息的存储与组织,信息的检索, 信息的展示 。图1给出了信息检索过程的框架结构。 图1基于Web的信息检索框架结构 Fig.1 Web-based framework for information retrieval 根据图1的框架结构,可以设计基于Web的信息 检索模型,对Web页的分类处理分两个阶段完成。第 一阶段是利用自动搜索程序,通过输入一个短查询式 的问题,进行初始检索,然后将检索出的Web页面经 过页面清洗,去掉噪声,最后以文本文档的形式存人 专门设计的后台数据库(包含检索出的题目、上传时 间、内容等)。所谓Web页面清洗,是从Web页面中划 分出精确的信息单位,并根据Web页面信息加工的后 续应用的需求,将页面中不需要的部分去除,将需要 的部分提取出来。噪声是指Web页中大量的诸如导航 条、广告链接、版本信息、更新日期等。本文采用一种 新的“HTML页面清洗压缩算法”,该方法是把页面对 应的HTML文档,转化成对应的HTML树,然后再对 树进行页面清洗。经过清洗后,web页面在结构和语 义上都被划分成细粒度的信息块,为后续的信息加工 工作顺利进行提供了方便。由于在初始检索结果中会 得到数目相当庞大的结果,包含的信息质量也会良莠 不齐,大量的与用户意图不相关的文档也混杂在其 中,这样就造成检索结果不够准确。因此需要对这些 文档再进行第二次检索,即进入检索的第二阶段。第 二阶段主要任务是对文本文档加以归类,利用文本分 类方法来组织信息,最终实现按类显示用户查找信息 的要求。 第二阶段信息检索模型分成前台用户查询处理 和后台文档信息处理两大部分,结构如图2所示。 前台部分:给用户提供查询界面,用户在该界面 输入查询请求后,调用后台信息,界面中会显示查询 结果。用户点击查询到的文档标题后,又弹出一个界 面。界面的上方显示这篇文档属于第几类,界面的下 方会显示这篇文章的详细内容。 图2模型的组织结构 Fig.2 Structure of the model 后台部分:利用第一阶段从web上收集来的用户 初次查询请求资料,将其转化为统一格式的文本文 档。然后对所有文档采用停用词处理,也就是删掉没 有意义的代词、助词、副词。再采用信息检索模型对所 有文档进行检索,先提取特征项。我们选取能正确反 映文档重要内容的文档标题、摘要部分进行关键词及 词组提取,然后这些词形成了文档的关键词组集合。 再计算每篇文档中关键词出现的频数,将词频数高的 关键词也存储到文档特征项库中去。将查询式词组、 特征项及已知的数据字典中的类特征项进行匹配,使 用分类算法公式计算概率值,依据数值进行归类处 理。 1.2分类算法设计 为了对模型进行训练,将文本集分为两个部分: 训练集和测试集。所谓训练集是由一组已经分好类 (即已给定类别标号)的文本组成,用于归纳出各个类 别的特性以构造分类器。测试集是用于测试分类效果 的文档的集合。其中每个文本都通过分类器分类,然 后与正确决策的分类结果相对比,从而得到对分类器 效果的评价,其中,测试集不参与分类器的训练。 本文采用贝叶斯分类方法对文档进行分类。由于 真实文本的一个属性对给定类的影响于其他属 性的假设并非总是成立,我们选取了贝叶斯网络分类 器。这种模型考虑到了属性之间的依赖关系,更能反 映文本的真实情况。但代价是计算复杂度比朴素贝叶 斯高。贝叶斯分类算法的基本思路是计算文本属于类 别的概率,文本属于类别的概率等于文本中每个特征 项属于类别的概率的综合表达式。其具体算法步骤如 下:输入训练集文本文档,每个文档都包含特定的特 征的词。 第一步:先对训练集中的每个文本文档进行分词 处理,提取关键词。依次计算出每个关键词在这个文 档di中出现的次数ni和频度6。频度: 高玲等,基于Web的智能信息检索方法研究 fi-— ∑n J=l 其中N为每个关键词在文档di中出现的次数的 和。频度高的这些关键词放到文本特征项库中。 第二步:用下列公式计算特征项库中每个特征词 属于每个类别的概率。 1+∑N(W…d) P( ,)=—— —~ I VI+∑∑_=l =1 7V( , ) 其中: P( )为特征词w 在类C 中出现的比重,ID J l为该类的训练文本数,N(W ,d )为特征词W 在文档 I” ll r1 中的词频,IVI为特征文档库中的总词数,∑∑N s=l i=I (W ,d.)为该类所有词的词频和。 第三步:文本到达时,根据特征词,按下面的公式 计算该文本d 属于类c 的概率: P(C1 )兀P( )M ∑IC IP(c )n P( r; ) , )= , P(cj )=惫 ,lC l为类的总数,N (W d)为w 在d.中的词频,n为特征词总数。 第四步:比较测试文档属于所有类的概率,将文 本分到概率最大的那个类中。 第五步:确定阈值。根据训练集中文档的概率和 频率,算 每 一类的闽值。 第六步:当有新文档出现时,只需要用它第二步 计算m p( .)和每一类的阈值进行比较,大于阂值 的认为是相关文梢,把它归人该类中。省去第三步到 第五步的计算过程,节约了时间也减少了计算工作 量 模型在石油安全领域的应用 在基于中文分词和文本分类算法相结合的信息 检索模型的基础卜,针对石油安全领域的Web信息检 索设计 r一个智能信息检索系统,该系统在查找准确 率、文档分类方面均取得了较好的结果。 2.1实验数据 本文利用网络蜘蛛自动搜索程序从百度网上采 集了与石油相关的web页400个。其中200个作为训 练集,剩下的200个作为测试集。为了保证训练数据 的正确性,训练集里的Web页是由人T提取的。 2.2数据处理 数据处理基于语料库。语料库丰要由文档特征项 库、类特征项库、关键词组集合L二大部分组成。文档特 征项库是从由特征提取中词频高的关键词组成的(可 以选择字、词或词组来作为特征项,但是根据做实验 显示的结果来看,选取“词”作为特征项要优于字和词 组,所以文档特征库是由词构成的);关键词组集合是 从每篇文本文档的标题、摘要、关键词信息中获取的; 类特征项库是利用数据字典中的数据获得的。 数据处理的目的是让系统最终实现智能分类,要 分类就得先分词。对于一篇经过预处理后的文本文 档,根据它出现的标点符号位置,先将它切分成句子。 遇到逗号、问号、感叹号、分号、冒号、省略号和回车换 行符,就认为是一个句子的结束标志。另外,如果句子 中存在括号,被一对括号括起的部分认为是一个独 的句子。然后对句子再进行切分,得到词。这主要是因 为考虑到自然语言处理技术的影响,选择词作为文本 组成的特征,更符合人们的思维习惯。因此本文中文 档特征项库中的关键词、关键词组集合中的特征项都 是用文本分词的方法获得的。本文采用的中文分词算 法是基于分词词典(常用词词典)的亨符串匹配算法, 其分词过程如3所示。 是 ,—————主————~ ( 输出结果 ) 一 图3中文分词流程 Fig.3 Flow chart of Chinese Word Segmentation 现以石油安全生产领域的一篇名叫《石油库带掩 体油罐防护安全距离的确定》的文档D,和《加油站与 加气站安全距离要求》的文档D 为例,说明对文档的 智能分类过程。 黑龙江科学 2011年第2卷第5期 表1 D.和D:关键词统计 HEILONGJIANG SCIENCE 置的相对的位移为26(这里采用的是一个汉字占2个 Table 1 Keywords statistics of Documents D1 and D2 字符的算法来计算词在文档中的位置的)。“距离”在 文档D:中仅出现了2次。从图4显示的内容来看,关 键词“距离”这个词在文档D 中的出现的频率是很高 的,所以把它存入到文档特征项库中。类特征项库的 数据是从已知的石油安全数据字典中获得的。 2.3检索结果 在面向用户的信息检索系统的检索词提交框中, 用户输人想查询的关键词,或者在下拉列表框中选择 石油库带掩体油罐防护安全距离的确定。摘要: 油库安全距离有两个不同的概念,一个是防火安全距 离;另一个是防护安全距离。针对如何科学地确定油 库防护安全距离这一问题,对的破坏因素和建筑 物的破坏等级进行了分析与划分,从而根据建筑物的 重要性和抗冲击波破坏能力,确定其允许破坏的等 级,再由投弹的装药量计算出冲击波的设防安全距 离。对于带有掩体的油罐,其防护安全距离的确定应 根据允许破坏等级、爆炸位置以及有掩体的两油罐间 防护安全距离的计算来确定。关键词:油库,油罐,安 全,距离。 加油站与加气站安全距离要求。根据《汽车加油 站、加气站设计与施工规范》,加气机与加油站、加气 站房的最小防火距离为5米。 从文档D 和D 的标题、摘要(或者主要叙述内 容)、关键词信息中我们取出相对重要的词放到关键 词组集合中,如表1所示。 由于“安全”和“距离”这两个词在文档D。和D 中 全出现了,所以这连个词的NDocuments=2,其余词的 NDocuments=1。如下图4所示。 圈4 “距离”关键词统计 Fig.4 Statistics of the keyword“Distance” 从图4可知,关键词“距离”出现在D 与D:两篇 文档中,“距离”在文档D 中一共出现了9次,第一次 出现的位置为29,第二次出现的位置离第一次出现位 已知的类别中的某一类,点击“搜索”按钮提交给系 统。经过计算处理后,查到的与用户输入相关的文档 结果会按相关度展示给用户。通过对系统测试,文档 对应分类的查准率稳定在62%到71%之间。如图5所 不 堡 6 45 4O1 2 3 4 5 6 7 8 类别 图5不同类别查准率的比较 Fig.5 Comparison of accuracy of different categories 3 结 论 提出了分阶段对Web页的检索方法。第一阶段, 通过在Web站点上安装程序获取Web页,应用页面 清洗技术,使之变成文本文档,实现了模型中数据导 入前的预处理;第二阶段,把分类算法运用到信息检 索模型中,在计算文档与用户需求相关度的同时,对 文档进行了分类。通过概率模型实现了文档的分类, 并且把这种方法应用到了石油安全生产领域,取得了 良好的分类效果。 参考文献: [1]WANGNENGBIN.Database systemtutorial[M].Be ing:Publi8hing house of Electronics Industry,2004. [2]张德海,沙月林.基于本体与工作流的知识服务系统[J].计算机 工程,2009,35(19):75~77,80. [3]MENG XIAO—FENG,ZHOU LONG—XIANG,WANG SHAN.State of the art and trends in dalabase research[J].Journal of software,2004, 15(12):1822~1836. [4]杜小勇,李曼,王珊.本体学习研究综述[n北京软件学报,2006, 17(9):1837~1847. [5]王珊,萨师煊.数据库系统概论EM].北京:高等教育出版社, ,nn5