您的当前位置:首页正文

目前信息检索系统的优缺点

来源:华佗健康网


目前信息检索系统的优缺点

摘要

目前,Internet上信息检索的方式主要分为二种:即非WEB信息检索方式和WEB信息检索方式。这两种检索方式为人们及时准确地检索网络信息提供了极大的方便和可能,尤其WEB信息检索工具中的搜索引擎,它已成为人们查询网上信息最重要的检索工具,几乎成了网络信息检索工具的代称,因而本文在论述网络信息检索工具时以搜索引擎为主要代表。然而目前网络信息检索又面临一系列的挑战,如网络信息量的迅猛增加,以至人工己经无法对它们进行有效的分类、索引和利用;简单的关键词搜索;返回的信息量过大已经让用户无法承担;网络信息组织的无序性;网络信息日新月异的更变;信息媒体的多样化等等,这些都给Internet信息的获取和利用造成了极大的阻碍错误!未找到引用源。]。

引言

信息检索系统的研究是伴随着科学技术的发展和信息数量的俱增而兴起的,是指信息用户为处理解决各种问题而查找、识别、获取相关的事实、数据、文献的活动及过程,其主要研究范围包括:信息检索理论、信息检索语义、信息检索系统的构建和评价、信息检索技术和方法等。

信息检索的研究已经有多年的历史,20世纪中叶以前,信息的存储和传播主要以纸质介质为载体,信息检索的研究主要围绕文献的获取和控制展开,主要关注如何检索和利用文献中记载的信息。直到50年代,计算机被图书馆等部门广泛用来存储和管理文档,信息检索技术作为新的热点被广泛地研究。到了80年代,信息检索领域在索引模型,文档内容表示以及匹配策略等方面取得了许多突破性的研究成果,并且成功地开发了一些系统。

例如Cornell大学的SMART系统和Massachusetts大学的INQUERY系统等。Web的出现为信息检索提供了一个前所未有的实验环境和应用情景,许多Web信息检索系统应运而生,例如Yahoo!,Alta-vista等错误!未找到引用源。]。

目前信息检索系统的优缺点

1.评价标准

目前,得到普遍认同的检索效果的评价标准主要有以下几个:查全率、查准率、收录范围、输出格式,其中以查全率和查准率最为重要错误!未找到引用源。]。综合国内外关于搜索引擎评价及其方法的研究,笔者将搜索引擎评价的研究方法分为以下几种。

(1) 实验方法

(2) 调查方法

(3) 数据分析法

(4) 观察法

(5) 综述和评论

综合评价指标是指对搜索引擎各个方面进行考量时依据的参考标准,如Carpineto等就提出了3个一级指标,分别为:检索界面、检索性能和检索输入。其中,检索界面包括搜索引擎存在、主页检索框、结果页面检索框以及高级检索界面等4个二级指标;检索性能有7个二级指标:大小写敏感度、词干检索、禁用词、部分匹配、短语检索、布尔逻辑检索、

全站检索等;检索输出包括基于相关度的排序、标记检索式、结果建议、无死链4个二级指标错误!未找到引用源。]。

2.按照信息搜集方法和服务提供方式的不同,搜索引擎系统可以分为三大类:

目录式搜索引擎:

以人工方式或半自动方式搜集信息,由编辑员查看信息之后,人工形成信息摘要,并将信息置于事先确定的分类框架中,提供目录浏览服务和直接检索服务。该类搜索引擎因为加入了人的智能,所以信息准确、导航质量高,缺点是需要人工介入、维护量大、信息量少、信息更新不及时。

这类搜索引擎的代表是:Yahoo、LookSmart、Open Directory、Go Guide等。

机器人搜索引擎:

由一个称为蜘蛛(Spider)的机器人程序以某种策略自动地在互联网中搜集和发现信息,然后索引器为搜集到的信息建立索引,再由检索器根据用户的查询输入检索索引库并将查询结果返回给用户。服务方式是面向网页的全文检索服务。该类搜索引擎的优点是搜索的信息空间大,更新及时,毋需人工干预,缺点是返回信息过多,有很多无关信息,用户必须从结果中进行筛选。

这类搜索引擎的代表是:AltaVista,Northern Light,Excite,Infoseek,Inktomi,FAST/FastSearch,Lycos,Google,“天网”,悠游,OpenFind等。

搜索引擎:这类搜索引擎没有自己的数据,而是将用户的查询请求同时向多个搜索引擎递

交,将返回的结果进行重复排除、重新排序等处理后,作为自己的结果返回给用户。服务方式为面向网页的全文检索。这类搜索引擎的优点是返回结果更多、更全,缺点是不能充分利用所使用搜索引擎的功能,用户需要做更多的筛选。

这类搜索引擎的代表是WebCrawler,InfoMarket等错误!未找到引用源。]。

3.新一代的智能Web信息检索系统:

移动agent技术

一般来说,所有用移动agent实现的系统都可以用传统的分布式技术赖实现。那么为什么要选择移动agent呢这是因为移动agnet为解决分布式问题提供了一个统一的模式。它为分布计算带来了更多的灵活性、高效性、可靠性和可伸缩性。移动agent已成为继CORBA、DCOM后新一代分布处理技术。移动agent具有以下5个优点:

(1)节约网络带宽和减少网络延时;

(2)移动agent能够使传统的C/S计算模式下的计算任务更加动态均匀地分配;

(3)在分布式环境下,移动agent系统能实现较好的并行性即并行任务求解;

(4)基于移动agent的分布式系统具有较好的可理解性;

(5) 异步移动计算能力。

本体技术

本体的目标是捕获相关领域的知识,提供对该领域知识的共同理解,确定该领域内共同认可的词汇,并从不同层次的形式化模式上给出这些词语和词语间相互关系的明确定义。

本体的研究与应用主要包括3方面:(1)理论研究,主要研究概念及其分类和本体上的代数运算;(2)在信息系统中的应用研究,主要研究信息组织、信息检索和异构信息系统互操作问题,(3)本体作为一种能在知识层提供知识共享和重用的工具在语义Web中的应用错误!未找到引用源。]。

3. 个性化搜索引擎技术

当前,个性化搜索引擎技术主要表现在如下两个方面:

(1)搜索引擎提供的搜索结果满足用户的个性化需求。由个性化搜索服务获得的搜索结果更加准确,使不同用户能够得到各自需要的搜索结果,同时避免出现不相关的搜索结果。个性化搜索引擎技术通过分析用户的搜索词,跟踪用户的搜索行为和环境,结合用户的需求变化和网络信息的动态变化实时更新等资料进行信息检索,从而为用户提供更为个性化的、准确的、真正需求的搜索结果。

(2)个性化搜索引擎所提供的服务和功能具有优势和特色,与通用搜索引擎不同。由于各大搜索引擎为了获得竞争优势,不断推出新的特色服务和功能,因此出现了从核心搜索衍生出的各种其他服务,如桌面搜索、地图搜索、生活搜索、RSS订阅等服务。

目前不少搜索引擎都加入了个性化服务和功能,他们提出了各种技术和方法以实现个性化搜索服务。他们主要采用了基于规则的和基于信息、过滤的推荐技术。其中,基于信息过滤的技术又包括协作过滤和基于内容的过滤。基于规则的技术允许系统管理员根据用

户的动态和静态属性生成规则,规则决定了在不同情况下如何提供不同的务,一个规则本质上是一个if-then语句。该方法的优点是简单、直接,缺点是规则不能动态更新,质量难以保证,随着规则数的增加,系统将更难管理。典型的系统有IBM的Webshere,BroadVision和ILOG等。

基于内容过滤的技术利用资源和用户兴趣的相似度进行信息过滤。该方法的优点是简单、高效,缺点是不能发现用户新的兴趣,并且难以区分资源内容的质量和风格。典型的系统有 Personal web Watcher,syskill&webert,CiteSeer,和Web personalizer等。

基于协作的过滤技术是利用用户之间的相似度来进行信息过滤。该方法的优点是能发现用户新的兴趣点,但缺点是当系统用户和资源逐渐增多时,系统性能会逐渐降低;另外,在系统使用的初期,难以发现相似的用户。典型的系统有Web watcher,Let’s Browse,GrouLens,Firefly和Siteseer等。

还有其它的一些提供个性化服务的信息搜索系统同时采用了基于内容和协作过滤两种技术。如:webSIFT,FAB,Anatagonomy和Dynamicprofiler等,结合这两种过滤技术可以克服协作过滤的稀疏性难题,使用用户已浏览的内容来预测用户对其它资源的评价,进而增加资源评价的密度,再利用这些评价进行协作过滤,从而改善协作过滤的效率错误!未找到引用源。]。

参考文献

[1] 网络信息检索及其发展趋势研究

[2] 基于结构化向量空间模型的中文信息检索系统研究与实现

[3] 搜索引擎检索功能的性能评价研究

[4] 基于本体的Web信息检索系统及其关键技术研究

[5] 基于内容的个性化Web信息检索系统的设计与实现

因篇幅问题不能全部显示,请点此查看更多更全内容