基于Web的智能信息检索方法研究

来源：华佗健康网

高玲等，基于Ｗｅｂ的智能信息检索方法研究　基于Ｗｅｂ的智能信息检索方法研究　Ｒｅｓｅａｒｃｈ　ｏｎ　ｔｈｅ　Ｍｅｃｈａｎｉｓｍ　ｏｆ　Ｗｅｂ－ｂａｓｅｄ　Ｉｎｔｅｌｌｉｇｅｎｔ　Ｉｎｆｏｒｍａｔｉｏｎ　Ｒｅｔｒｉｅｖａｌ　高玲　，李春生　，杨冬黎　（１．大庆油田图书馆，黑龙江大庆１６３３００；２．东北石油大学，黑龙汀大庆，１６３３１８）　ＧＡＯ　Ｌｉｎｇ　．ＬＩ　Ｃｈｕｎ—ｓｈｅｎｇ　ａｎｄ　ＹＡＮＧ　Ｄｏｎｇ—ｌｉ　ｆ１．Ｄａｑｉｎｇ　Ｏｉｌｉｅｌｆｄ　Ｌｉｂｒａｒｙ，Ｄｃｕｔｉｎｇ　１６３３００，Ｃｈｉｎａ；　２．Ｎｏｒｔｈｅｃａ￣ｔ　Ｐｅｔｒｏｌｅｕｍ　Ｕｎｉｖｅｒｓｉｔｙ．Ｄａ７ｉｎｇ　１６３３１８，Ｃｈｉｎａ）　摘要：随着互联网技术的不断发展，网络日益成为人们　＿［＝作和生活中获取信息的重要来源。但是，由于Ｗｅｂ的外放性和异构性，　使得用户很难从纷繁复杂的海量信息中快速找到对自己有价值的信息。本文将中文分词特征提取思想与文本分类算法相结合，通过　对概率模型的改进，提出了基于Ｗｅｂ的信息检索模型，并将其应用到石油安全生产信息检索中。通过用已知样本进行训练，确定每　类的阈值，实现了对石油安全生产相关文档的分类。　关键词：Ｗｅｂ，信息检索，文本分类　中图分类号：ＴＰ　３９１．３　文献标识码：Ａ　文章编号：１６７４～８６４６（２【）ｌ１）０５—００２０—０４　Ａｂｓｔｒａｃｔ：Ｗｉｔｈ　ｔｈｅ　ｄｅｖｅｌｏｐｍｅｎｔ　ｏｆ　ｎｅｔｗｏｒｋ　ｔｅｃｈｎｉｑｕｅｓ，ｔｈｅ　ｌｎｔｅｒｎｅｔ　ｉｓ　ｂｅｃｏｍｉｎｇ　ａｎ　ｉｍｐｏｒｔａｎｔ　ｍｅｔｈｏｄ　ｆｏｒ　ｇａｔｈｅｒｉｎｇ　ｉｎｆｏｒｍａｔｉｏｎ　ｒｅｓｏｕｒｅｅｓ　ｉｎ　ｏｕｒ　ｗｏｒｋ　ａｎｄ　ｌｉｖｅｓ．Ｈｏｗｅｖｅｒ，ｉｔ　ｉｓ　ｄｉｉｃｕｌｆｔ　ｆｏｒ　ＯＳ　ｔｏ　ｆｉｎｄ　ｖａｌｕａｂｌｅ　ｍｅｓｓａｇｅ　ｑｕｉｃｋｌｙ　ｆｒｏｍ　ｔｈｅ　ｍａｓｓ　ａｎｄ　ｃｏｍｐｌｉｃａｔｅｄ　ｉｎｆｏｒｍａｔｉｏｎ　ｂｅｃａｕｓｅ　Ｗｅｂｓ　ａｒｅ　ｏｆ　ｔｈｅ　ｏｐｅｎ　ａｎｄ　ｈｅｔ—　ｅｒｏｇｅｎｅｏｕｓ　ｃｈａｒａｃｔｅｒｉｓｔｉｃｓ．Ｉｎ　ｔｈｉｓ　ａｒｔｉｃｌｅ，ｗｅ　ｃｏｎｔｒｉｂｕｔｅ　ａ　ｗｅｂ—ｂａｓｅｄ　ｉｎｆｏｒｍａｔｉｏｎ　ｒｅｔｒｉｅｖａｌ　ｍｏｄｅｌ　ｂａｓｅｄ　ｏｎ　ｔｈｅ　ｍｏｄｉｉｃａｔｆｉｏｎ　ｏｆ　ｐｒｏｂａｂｉｌｉｔｙ　ｍｏｄｅｌ　ｂｙ　ｃｍｎｂｉｕ—　ｉｎｇ　ｆｅａｔｕｒｅ　ｅｘｔｒａｅｔｉｏｎ　ｏｆ　Ｃｈｉｎｅｓｅ　Ｗｏｒｄ　Ｓｅｇｍｅｎｔａｔｉｏｎ　ａｎｄ　ｔｅｘｔ　ｓｏｒｔｉｎｇ　ａｌｇｏｒｉｔｈｍ．Ａｔ　ｔｈｅ　ｓａｎｌｅ　ｔｉｍｅ，ｔｈｅ　ｍｏｄｅｌ　ｉｓ　ａｐｐｌｉｅｄ　ｉｎ　ｉｎｆｏｒｍａｔｉｏｎ　ｒｅｔｒｉｅｖａｌ　ｆｏｒ　ｐｒｏｄｕｃｉｎｇ　ｐｅｔｒｏｌｅｕｍ　ｓａｆｅｌｙ．　Ｆｈｅ　ｔｈｒｅｓｈｏｌｄ　ｏｆ　ｅａｃｈ　ｃａｔｅｇｏｒｙ　ｆｏｒ　ｐｒｏｄｕｃｉｎｇ　ｐｅｔｒｏｌｅｕｍ　ｓａｆｅｌｙ　ｈａｓ　ｂｅｅｎ　ｓｅｔ　ｂｙ　ｔｒａｉｎｉｎｇ　ｔｈｅ　ｍｏｄｅｌ　ｗｉｔｈ　ｇｉｖｅｎ　ｓａｍｐｌｅｓ．Ｔｈｅ　ｓｙｓｔｅｍ　ｏｆ　ｒｅｔｒｉｅｖ—　ｉｎｇ　ｒｅｌｅｖａｎｔ　ｄｏｅｍｎｅｎｔ　ｆ０　ｐｒｏｄｕｃｉｎｇ　ｐｅｔｒｏｌｅｕｍ　ｓａｆｅｌｙ　ｉｓ　ｉｍｐｌｅｍｅｎｔｅｄ．　Ｋｅｙ　ｗｏｒｄｓ：ＷＥＢ；ｉｎｆｏｒｍａｔｉｏｎ　ｒｅｔｒｉｅｖａｌ；ｔｅｘｔ　ｓｏｒｔｉｎｇ　Ｗｅｂ为用户提供海量信息的同时，也带来了大量　的噪声，用户对大量的无关信息淹没对自己有价值的　信息已经无法忍受…。所以即时的处理大量信息，提高　信息检索系统的准确率，使用户可以快速找到自己所　将大量分散无序的ｗｅｂ页信息集中起来，经过加Ｊ＿　整　理，使之形成有序化、系统化的语料库；（２）结合信息检　索模型的相关理论、关键技术，选择在检索模型中应　用概率的计算方法Ｉ　；（３）通过运用统计的学习方法，实　现模型对检索结果的优化与完善。用已知的石油安全　生产方面的文档，对模型的检索结果不断地进行训　练，从而使模型在多次交互操作之后，得到的检索结　果逐步接近用户提问的理想命中结果。　需要的信息已经变得势在必行，Ｗｅｂ信息检索受到越　来越多的重视　。Ｗｅｂ信息检索与传统信息检索有所　不同：一　是信息资源海量，用户对查全率的追求降低，　查准率要求越来越高；二是文档之间的超链接结构是　Ｗｅｂ信息检索和传统信息检索的又一区别　１，链接描　述文档对网页主题的概括有高度的精确性，由此产生　１基于Ｗｅｂ的信息检索模型设计　建立信息检索模型是实现检索系统的基础，基本　设计要求如下：（１）语料库足够大，检索到的数据能满　足一般用户需求；（２）用户操作界面简单，用户可以很　方便地输入检索请求；（３）检索出的信息能够达到用广Ｉ　的要求，并能按照合理的顺序显式给用户，并日町以　基于超链接结构的检索技术；三是Ｗｅｂ上的文本数　据大部分用ＨＴＭＬ书写，使用ＨＴＭＬ标签对网页的修　饰作用进行信息检索。　本文以石油安全信息检索为例，应用分类算法和　中文分词的关键技术，研究了信息检索模型及其实　现。具体包括：（１）以石油安全生产方面的Ｗｅｂ页为例，　收稿日期：２０Ｉｌ—Ｏ４—２７　基金项目：黑龙江省教育厅科研基金项日。（编号：１２５ｌ１０１０）。　作者简介：高玲（１９７３一），女，河北省徐水县人，工程师。研究方向为信息榆索与信息处理。　通讯作者　黑龙江科学　２０１１年第２卷第５期　ＨＥＩＬＯＮＧＪＩＡＮＧ　ＳＣＩＥＮＣＥ　对显示的信息进行分类处理。　１．１模型结构设计　信息检索是利用一定的检索算法，借助于特定的　检索工具，针对用户的检索需求，从结构化或非结构　化的数据中获取有用信息的过程。把整个信息检索过　程刻画为三个方面：信息的存储与组织，信息的检索，　信息的展示　。图１给出了信息检索过程的框架结构。　图１基于Ｗｅｂ的信息检索框架结构　Ｆｉｇ．１　Ｗｅｂ－ｂａｓｅｄ　ｆｒａｍｅｗｏｒｋ　ｆｏｒ　ｉｎｆｏｒｍａｔｉｏｎ　ｒｅｔｒｉｅｖａｌ　根据图１的框架结构，可以设计基于Ｗｅｂ的信息　检索模型，对Ｗｅｂ页的分类处理分两个阶段完成。第　一阶段是利用自动搜索程序，通过输入一个短查询式　的问题，进行初始检索，然后将检索出的Ｗｅｂ页面经　过页面清洗，去掉噪声，最后以文本文档的形式存人　专门设计的后台数据库（包含检索出的题目、上传时　间、内容等）。所谓Ｗｅｂ页面清洗，是从Ｗｅｂ页面中划　分出精确的信息单位，并根据Ｗｅｂ页面信息加工的后　续应用的需求，将页面中不需要的部分去除，将需要　的部分提取出来。噪声是指Ｗｅｂ页中大量的诸如导航　条、广告链接、版本信息、更新日期等。本文采用一种　新的“ＨＴＭＬ页面清洗压缩算法”，该方法是把页面对　应的ＨＴＭＬ文档，转化成对应的ＨＴＭＬ树，然后再对　树进行页面清洗。经过清洗后，ｗｅｂ页面在结构和语　义上都被划分成细粒度的信息块，为后续的信息加工　工作顺利进行提供了方便。由于在初始检索结果中会　得到数目相当庞大的结果，包含的信息质量也会良莠　不齐，大量的与用户意图不相关的文档也混杂在其　中，这样就造成检索结果不够准确。因此需要对这些　文档再进行第二次检索，即进入检索的第二阶段。第　二阶段主要任务是对文本文档加以归类，利用文本分　类方法来组织信息，最终实现按类显示用户查找信息　的要求。　第二阶段信息检索模型分成前台用户查询处理　和后台文档信息处理两大部分，结构如图２所示。　前台部分：给用户提供查询界面，用户在该界面　输入查询请求后，调用后台信息，界面中会显示查询　结果。用户点击查询到的文档标题后，又弹出一个界　面。界面的上方显示这篇文档属于第几类，界面的下　方会显示这篇文章的详细内容。　图２模型的组织结构　Ｆｉｇ．２　Ｓｔｒｕｃｔｕｒｅ　ｏｆ　ｔｈｅ　ｍｏｄｅｌ　后台部分：利用第一阶段从ｗｅｂ上收集来的用户　初次查询请求资料，将其转化为统一格式的文本文　档。然后对所有文档采用停用词处理，也就是删掉没　有意义的代词、助词、副词。再采用信息检索模型对所　有文档进行检索，先提取特征项。我们选取能正确反　映文档重要内容的文档标题、摘要部分进行关键词及　词组提取，然后这些词形成了文档的关键词组集合。　再计算每篇文档中关键词出现的频数，将词频数高的　关键词也存储到文档特征项库中去。将查询式词组、　特征项及已知的数据字典中的类特征项进行匹配，使　用分类算法公式计算概率值，依据数值进行归类处　理。　１．２分类算法设计　为了对模型进行训练，将文本集分为两个部分：　训练集和测试集。所谓训练集是由一组已经分好类　（即已给定类别标号）的文本组成，用于归纳出各个类　别的特性以构造分类器。测试集是用于测试分类效果　的文档的集合。其中每个文本都通过分类器分类，然　后与正确决策的分类结果相对比，从而得到对分类器　效果的评价，其中，测试集不参与分类器的训练。　本文采用贝叶斯分类方法对文档进行分类。由于　真实文本的一个属性对给定类的影响于其他属　性的假设并非总是成立，我们选取了贝叶斯网络分类　器。这种模型考虑到了属性之间的依赖关系，更能反　映文本的真实情况。但代价是计算复杂度比朴素贝叶　斯高。贝叶斯分类算法的基本思路是计算文本属于类　别的概率，文本属于类别的概率等于文本中每个特征　项属于类别的概率的综合表达式。其具体算法步骤如　下：输入训练集文本文档，每个文档都包含特定的特　征的词。　第一步：先对训练集中的每个文本文档进行分词　处理，提取关键词。依次计算出每个关键词在这个文　档ｄｉ中出现的次数ｎｉ和频度６。频度：　高玲等，基于Ｗｅｂ的智能信息检索方法研究　ｆｉ－—　∑ｎ　Ｊ＝ｌ　其中Ｎ为每个关键词在文档ｄｉ中出现的次数的　和。频度高的这些关键词放到文本特征项库中。　第二步：用下列公式计算特征项库中每个特征词　属于每个类别的概率。　１＋∑Ｎ（Ｗ…ｄ）　Ｐ（　，）＝——　—～　Ｉ　ＶＩ＋∑∑＿＝ｌ　＝１　７Ｖ（　，　）　其中：　Ｐ（　）为特征词ｗ　在类Ｃ　中出现的比重，ＩＤ　Ｊ　ｌ为该类的训练文本数，Ｎ（Ｗ　，ｄ　）为特征词Ｗ　在文档　Ｉ”　　ｌｌ　ｒ１　中的词频，ＩＶＩ为特征文档库中的总词数，∑∑Ｎ　ｓ＝ｌ　ｉ＝Ｉ　（Ｗ　，ｄ．）为该类所有词的词频和。　第三步：文本到达时，根据特征词，按下面的公式　计算该文本ｄ　属于类ｃ　的概率：　Ｐ（Ｃ１　）兀Ｐ（　）Ｍ　∑ＩＣ　ＩＰ（ｃ　）ｎ　Ｐ（　ｒ；　）　，　）＝　，　Ｐ（ｃｊ　）＝惫　，ｌＣ　ｌ为类的总数，Ｎ　（Ｗ　ｄ）为ｗ　在ｄ．中的词频，ｎ为特征词总数。　第四步：比较测试文档属于所有类的概率，将文　本分到概率最大的那个类中。　第五步：确定阈值。根据训练集中文档的概率和　频率，算　每　一类的闽值。　第六步：当有新文档出现时，只需要用它第二步　计算ｍ　ｐ（　．）和每一类的阈值进行比较，大于阂值　的认为是相关文梢，把它归人该类中。省去第三步到　第五步的计算过程，节约了时间也减少了计算工作　量　模型在石油安全领域的应用　在基于中文分词和文本分类算法相结合的信息　检索模型的基础卜，针对石油安全领域的Ｗｅｂ信息检　索设计　ｒ一个智能信息检索系统，该系统在查找准确　率、文档分类方面均取得了较好的结果。　２．１实验数据　本文利用网络蜘蛛自动搜索程序从百度网上采　集了与石油相关的ｗｅｂ页４００个。其中２００个作为训　练集，剩下的２００个作为测试集。为了保证训练数据　的正确性，训练集里的Ｗｅｂ页是由人Ｔ提取的。　２．２数据处理　数据处理基于语料库。语料库丰要由文档特征项　库、类特征项库、关键词组集合Ｌ二大部分组成。文档特　征项库是从由特征提取中词频高的关键词组成的（可　以选择字、词或词组来作为特征项，但是根据做实验　显示的结果来看，选取“词”作为特征项要优于字和词　组，所以文档特征库是由词构成的）；关键词组集合是　从每篇文本文档的标题、摘要、关键词信息中获取的；　类特征项库是利用数据字典中的数据获得的。　数据处理的目的是让系统最终实现智能分类，要　分类就得先分词。对于一篇经过预处理后的文本文　档，根据它出现的标点符号位置，先将它切分成句子。　遇到逗号、问号、感叹号、分号、冒号、省略号和回车换　行符，就认为是一个句子的结束标志。另外，如果句子　中存在括号，被一对括号括起的部分认为是一个独　的句子。然后对句子再进行切分，得到词。这主要是因　为考虑到自然语言处理技术的影响，选择词作为文本　组成的特征，更符合人们的思维习惯。因此本文中文　档特征项库中的关键词、关键词组集合中的特征项都　是用文本分词的方法获得的。本文采用的中文分词算　法是基于分词词典（常用词词典）的亨符串匹配算法，　其分词过程如３所示。　是　，—————主————～　（　输出结果　）　一　图３中文分词流程　Ｆｉｇ．３　Ｆｌｏｗ　ｃｈａｒｔ　ｏｆ　Ｃｈｉｎｅｓｅ　Ｗｏｒｄ　Ｓｅｇｍｅｎｔａｔｉｏｎ　现以石油安全生产领域的一篇名叫《石油库带掩　体油罐防护安全距离的确定》的文档Ｄ，和《加油站与　加气站安全距离要求》的文档Ｄ　为例，说明对文档的　智能分类过程。　黑龙江科学　２０１１年第２卷第５期　表１　Ｄ．和Ｄ：关键词统计　ＨＥＩＬＯＮＧＪＩＡＮＧ　ＳＣＩＥＮＣＥ　置的相对的位移为２６（这里采用的是一个汉字占２个　Ｔａｂｌｅ　１　Ｋｅｙｗｏｒｄｓ　ｓｔａｔｉｓｔｉｃｓ　ｏｆ　Ｄｏｃｕｍｅｎｔｓ　Ｄ１　ａｎｄ　Ｄ２　字符的算法来计算词在文档中的位置的）。“距离”在　文档Ｄ：中仅出现了２次。从图４显示的内容来看，关　键词“距离”这个词在文档Ｄ　中的出现的频率是很高　的，所以把它存入到文档特征项库中。类特征项库的　数据是从已知的石油安全数据字典中获得的。　２．３检索结果　在面向用户的信息检索系统的检索词提交框中，　用户输人想查询的关键词，或者在下拉列表框中选择　石油库带掩体油罐防护安全距离的确定。摘要：　油库安全距离有两个不同的概念，一个是防火安全距　离；另一个是防护安全距离。针对如何科学地确定油　库防护安全距离这一问题，对的破坏因素和建筑　物的破坏等级进行了分析与划分，从而根据建筑物的　重要性和抗冲击波破坏能力，确定其允许破坏的等　级，再由投弹的装药量计算出冲击波的设防安全距　离。对于带有掩体的油罐，其防护安全距离的确定应　根据允许破坏等级、爆炸位置以及有掩体的两油罐间　防护安全距离的计算来确定。关键词：油库，油罐，安　全，距离。　加油站与加气站安全距离要求。根据《汽车加油　站、加气站设计与施工规范》，加气机与加油站、加气　站房的最小防火距离为５米。　从文档Ｄ　和Ｄ　的标题、摘要（或者主要叙述内　容）、关键词信息中我们取出相对重要的词放到关键　词组集合中，如表１所示。　由于“安全”和“距离”这两个词在文档Ｄ。和Ｄ　中　全出现了，所以这连个词的ＮＤｏｃｕｍｅｎｔｓ＝２，其余词的　ＮＤｏｃｕｍｅｎｔｓ＝１。如下图４所示。　圈４　“距离”关键词统计　Ｆｉｇ．４　Ｓｔａｔｉｓｔｉｃｓ　ｏｆ　ｔｈｅ　ｋｅｙｗｏｒｄ“Ｄｉｓｔａｎｃｅ”　从图４可知，关键词“距离”出现在Ｄ　与Ｄ：两篇　文档中，“距离”在文档Ｄ　中一共出现了９次，第一次　出现的位置为２９，第二次出现的位置离第一次出现位　已知的类别中的某一类，点击“搜索”按钮提交给系　统。经过计算处理后，查到的与用户输入相关的文档　结果会按相关度展示给用户。通过对系统测试，文档　对应分类的查准率稳定在６２％到７１％之间。如图５所　不　堡　６　４５　４Ｏ１　２　３　４　５　６　７　８　类别　图５不同类别查准率的比较　Ｆｉｇ．５　Ｃｏｍｐａｒｉｓｏｎ　ｏｆ　ａｃｃｕｒａｃｙ　ｏｆ　ｄｉｆｆｅｒｅｎｔ　ｃａｔｅｇｏｒｉｅｓ　３　结　论　提出了分阶段对Ｗｅｂ页的检索方法。第一阶段，　通过在Ｗｅｂ站点上安装程序获取Ｗｅｂ页，应用页面　清洗技术，使之变成文本文档，实现了模型中数据导　入前的预处理；第二阶段，把分类算法运用到信息检　索模型中，在计算文档与用户需求相关度的同时，对　文档进行了分类。通过概率模型实现了文档的分类，　并且把这种方法应用到了石油安全生产领域，取得了　良好的分类效果。　参考文献：　［１］ＷＡＮＧＮＥＮＧＢＩＮ．Ｄａｔａｂａｓｅ　ｓｙｓｔｅｍｔｕｔｏｒｉａｌ［Ｍ］．Ｂｅ　ｉｎｇ：Ｐｕｂｌｉ８ｈｉｎｇ　ｈｏｕｓｅ　ｏｆ　Ｅｌｅｃｔｒｏｎｉｃｓ　Ｉｎｄｕｓｔｒｙ，２００４．　［２］张德海，沙月林．基于本体与工作流的知识服务系统［Ｊ］．计算机　工程，２００９，３５（１９）：７５～７７，８０．　［３］ＭＥＮＧ　ＸＩＡＯ—ＦＥＮＧ，ＺＨＯＵ　ＬＯＮＧ—ＸＩＡＮＧ，ＷＡＮＧ　ＳＨＡＮ．Ｓｔａｔｅ　ｏｆ　ｔｈｅ　ａｒｔ　ａｎｄ　ｔｒｅｎｄｓ　ｉｎ　ｄａｌａｂａｓｅ　ｒｅｓｅａｒｃｈ［Ｊ］．Ｊｏｕｒｎａｌ　ｏｆ　ｓｏｆｔｗａｒｅ，２００４，　１５（１２）：１８２２～１８３６．　［４］杜小勇，李曼，王珊．本体学习研究综述［ｎ北京软件学报，２００６，　１７（９）：１８３７～１８４７．　［５］王珊，萨师煊．数据库系统概论ＥＭ］．北京：高等教育出版社，　，ｎｎ５　

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文