您好,欢迎来到华佗健康网。
搜索
您的当前位置:首页受限域FAQ中文问答系统研究

受限域FAQ中文问答系统研究

来源:华佗健康网
计算机研究与发展JournalofComputerResearchandDevelopmentISSN1000.1239/CN11.1777/TP44(Suppl.):388~393,2007受限域FAQ中文问答系统研究余正涛1’2邓锦辉1韩露1毛存礼1郑志蕴3郭剑毅1’2昆明650051)1(昆明理工大学信息工程与自动化学院昆明650051)2(云南省计算机技术应用重点实验室智能信息处理研究所3(郑州大学信息工程学院郑州450052)(ztyu@bit.edu.cn)AFAQQuestionAnsweringSystemBasedonRestrictedDomainYuZhengta01”,DengJinhuil,HanLul,MaoCunlil,ZhengZhiyun3,andGuoJianyil,21(SchoolofInformationEngineeringandAutomation,KunmingUniversity∥’ScienceandTechnology,Kunming650051)2(InstituteofIntelligentInformationKunming650051)Processing,YunnanProvinceKeyLaboratoryofComputerTechnologyApplication,3(CollegesofInformationEngineering,ZhengzhouUniversity,Zhengzhou450052)AbstractFAQ(frequently—askedquestion)isagoodquestion—and—answermodeltorealizebusinessadvisorysysteminrestricteddomain.AFAQquestionansweringsystemmodelispresentedinthispaper.Withthehelpoftheideaofontology,aknowledgebabeisconstructedinthedomain.WiththehelpofthelanguageKI)ML(knowledgedatabasemark—uprelationshipbetweenontonogiesarelanguage)ofHowNet,thedomainontologyanddescribed,andthefusionofthedefinitedanddomainknowledgebasequestionsentence(domainHowNet)andcommonknowledgebase(HowNet)isrealized.Onthisbasis,asimilaritycalculationmethodisimplemented,whichmakessentenceuseofthecharacteristicsofthedomainquestionandcombinesmorphologicalrelationship,syntacticinterdependentrelationshipandtheconceptualdomainsamongquestionsentencesrelationshipofsentences.Andbasedonthequestionsimilaritycalculation,retrievalofrelatedquestioncanfromthecandidatequestionbaseandextractionofquestionanswersbeimplementedwiththismethod.TheresultofYunnantourismquestionanswermodelexperimentshowsthatthismethodisfeasibleandeffective.Keywordsrestricteddomainquestionansweringsystem;frequently—askedquestionbase;domainontologybase;questionsimilarity摘要在受限域中采用常问问题(FAQ)实现业务咨询系统是一种较好的问答模式,提出了一种受限域FAQ问答系统模型,借助于本体论的思想,构建了领域知识库,利用KDML语言定义和描述了领域本体及本体之间的关系,并实现了领域知识库“领域知网”与常识库“知网”的融合.在此基础上,提出了一种问句相似度的计算方法,该方法借助领域问句所具有的特点,结合问句中的词法关系、句法依存关系及领域概念关系,实现问句相似度计算.并以相似度计算为基础,从侯选问题集中检索相关问句,提取问题答案.云南旅游FAQ问答原型系统测试结果表明该方法可行,有较好的效果.关键词受限域问答系统;常问问题库;领域本体库;问句相似度;中图法分类号TP391.12收稿日期:2007—03—05基金项目:国家自然科学基金项目(60663004);教育部博士点基金项目(20050007023);昆明理工大学博士基金项目(2006—12)万方数据 余正涛等:受限域FAQ中文问答系统研究常问问题FAQ([requently—askedquestion)是当前网络上提供在线帮助的主要手段,通过事先组织好一些可能的常问问答对,发布在网页上为用户提供咨询服务.FAQ知识组织简单、维护方便,但是,随着常问问题集的逐渐积累,问题数量日益增多,逐页浏览式的知识获取途径将越来越难以满足用户的需求,将会浪费用户大量的时间,甚至当用户访问了所有链接时才发现根本没有自己真正需要的信息,耗时费力.基于FAQ的问答系统正是为解决上述问题而提出的一种形式受限的问答系统,其提供了以自然语言的问题检索方式,并能够从问答库中检索出与询问问题最相近的问题,以此提供答案,这种方法具有高效、快速、准确等特点,是新一代的智能FAQuoJ.尤其在受限领域中,由于业务面相对较窄,问题相对较固定,可以利用领域知识关系,采用FAQ实现相关业务咨询系统是一种比较好的解决方案.1领域知识库构建相对于开放域来说,受限域具有一定的领域知识特点,借助于领域知识关系能够降低自然语言处理的难度.本体论(ontology)是一种对概念的精确描述,特别是对领域概念的描述,是一种很好的领域知识表示方式.本体通过对概念、术语及其相互关系的规范化描述,勾画出某一特定领域的基本知识体系结构.“知网”HowNet是一部通用常识资源,其描述了汉语和英语的词语所代表的概念,揭示概念与概念之间以及概念所具有的属性和属性之间的关系C4].借助本体论的思想对云南旅游领域资源的概念进行精确描述,以“知网”为基础,采用“知网”的概念描述语言KDML规则,建立了专门的云南旅游领域本体。形成云南旅游领域资源本体库领域知网体系,并实现了云南旅游知识库“领域知网”与常识知识库“知网”的融合.目前共对云南旅游景点介绍、风土民情、旅游交通等与旅游相关的728个概念进行了定义和描述,如:概念“香格里拉”和“丽江古城”的精确描述如下:No.=130001W—C=香格里拉G-C=NE-C=~是个美丽的地方W’卫=xigelila万 方数据389G上=NE—E=~isabeautifulplaceDEF=placeI地方,cityI市,ProperNameI专,(DiqingI迪庆州),(Yunnanf云南省),(Chinal中国)NO.=130002W_C=丽江古城G—C=NE_C=~很特另0W_E=OldTownofLijiangG-E=NE—E=~isveryspecialDEF=placeI地方,ProperNameI专,cityf市,pastI昔,(scenel景区),(1ijiangl丽江),(Yunnanl云除了对每一个云南旅游领域资源的概念进行描问句相似度计算是FAQ中相似问句查找的基的准确程度,当前已有多种中文句子相似度计算方和语用相似度.语用相似度具有相当的难度,目前J以及基于编辑距离的方法旧。0J等.其中,基于间的替换则为力.而使用语义词典的方法,可以很好地解决这一问题,但是单纯的使用语义词典的方法,并没有考虑到句子内部的结构和词语之间的相互作用关系,准确率不高.基于依存树的方法了句子的句法结构关系,但面临完全句法分析的精南述之外,还描述了这些概念之间的基本关系,包括部分与整体关系、继承关系、概念实例关系和概念属性关系4种关系,根据这4种关系和每一个概念定义项将云南旅游领域概念组成一个关系网.2领域中文问句相似度计算础,同时也是答案提取的关键,其直接影响答案提取法,通常分为3个等级¨J:语法相似度、语义相似度效果不理想.而在一般的应用中,计算句子的语义相似度就基本能够满足需求.目前对句子语义相似度计算的研究方法主要有:基于相同词汇的方法[5|、基于语义词典的方法[6-7]、基于依存树的方法【8相同词汇的方法有很明显的局限性,对于同义词之利用句子之间句法依存关系进行相似度计算,考虑度问题,且没有考虑句法结构中词汇的同义近义替换.编辑距离方法通常被用于句子的快速模糊匹配领域,但是其规定的编辑操作不够灵活,也没有考虑390词语的同义替换.在分析句子相似度计算存在问题基础上,结合受限域问句特点,综合考虑词的语义距离、句法依存关系及领域概念关系因素,提出了一种问句相似度计算方法,该方法首先利用领域问题特点、分类和提取问题类别,根据类别进行相似问题过滤,然后以“知网”及“领域知网”知识库为基础,采用句法分析提取问句有效依存对,并利用依存对和概念语义关系,实现问句之间相似度计算.2.1受限领域问句分类问题类型是定位答案及制定析取答案策略的关键因素[“],比如问“景点介绍”类型的问题,就不能用“风味特色”问题类型的内容进行回答,问题类型在相似问句检索和答案提取方面有着非常重要的地位,在问句分析时,判断两个问题是否相似,首先得判断两个问题的问题类型是否一致,如果一致,才能进行进一步的相似度计算判断,否则两个问题不可能相似.在受限领域内,由于业务相对固定,因此问句询问内容形式相对受限,因此可以针对问答业务对问题进行分类,以此来提高相似问句检索及答案抽取的准确率,比如在旅游领域,可以将常问问题分为景点介绍、景点位置,景点门票价格,风味小吃、特产介绍、风俗节日等20细类型,并可以根据这些问题类型的特点提取各种问题类型的特征规则,比如景点位置类型,其相关问题形式为:***景点在哪里?***景点位于什么地方?***景点地处何处等,其类型构成规则为***(景点)+地处/位于/在+疑问词(哪里).我们提取构建了各种问题类型的构成规则,并通过这些特征识别问题类型.2.2词的语义相似度计算在实际应用中,往往会出现两个问句意思完全~样,但其表达形式却不一样,比如,问题Q,:香格里拉有啥景点?与问题Q::中甸有那些好玩的地方?其主要原因是由于词的同义和相关关系导致的,在一个问句中出现的词存在一定的同义词和相关词,因此,在计算词语相似度时必须考虑词的同义和相关关系,而不能只根据词本身表层特征进行判断,利用“知网”及“领域知网”进行问句的词语级的相似度的计算,首先对问句进行知网消歧,并利用问句中出现的概念计算问句之间的相似度,概念之间的语义距离定义为两个概念对应的义原在义原树中的最短距离,计算方法参照刘群所著文献[4],计算过程如下:万 方数据计算机研究与发展2007,44(增刊)Sim(C1,C2)=∑展IISimj(cl,c2),(1)i=1j=1其中,Siml(cl,c2)为概念的第1个义原相似度,Sim2(Cl,C2)为其他义原的相似度,Sim3(Cl,C2)为关系义原相似度,和Sim4(C1,C2)为符号义原相似度,岛(1≤i≤4)为可调节的参数,且pl+&+风+以=1,pl≥p2≥卢3≥成,pl≥O.5.2.3问句句法依存对提取由于一个完整的汉语句子是由句子的主干成分和修饰成分所构成,而人们往往从主干成分就可以了解一个句子的大概意思,所以在进行相似度计算时,只考虑那些有效搭配对之间的相似程度.所谓有效搭配对是指全句核心词和直接依存于它的有效词组成的搭配对,这里有效词定义为动词、名词以及形容词,它是由分词后的词性标注决定的.全句核心词即为依存树的根结点.例如问题Q,:傣族有哪些特色节日?和问题Q。:云南的少数民族有些什么节日?其中问句1的有效搭配对为:有一节日、有一傣族;问句2的有效搭配对为:有一节日、有一少数民族.我们只要比较这些搭配对之间的相似程度即可,句子依存对采用哈工大的共享语言技术平台LTP接口实现.在提取获得了两个问句的有效搭配对后,必须比较两个问句有效搭配对之间的相似度,为了计算问句间有效搭配对相似度,首先必须计算两个有效搭配对之间对应概念之间的相似关系,根据知网消歧标注结果,采用第2.2节方法,分别计算依存对上两个对应概念的相似度,比如依存对“有一傣族”与“有一少数民族”的相似度分别计算动词“有”与“有”的相似度,“傣族“与”少数民族“之间的相似度,然后取两个相似平均值得到两个有效依存对的相似度.然后根据依存对的相似度计算问句之间相似度,假设对于任意两个问句A和B,A包含的问句句子依存对为A1,A2,…,A。,B包含的问句句子依存对为Bl,B2,…,B。,首先以问句A中的依存对为基准,计算依存对Ai(14i≤m)和Bi(1≤歹≤,z)之间的相似度S(Af,Bi),根据式(2)依次挑选S(A£,Bi)最大的依存对,直到句子A中的依存对为空,挑选出一个句子有效依存对集合{ai},同样以B有效句子依存对为基准,计算句子依存对Bi(1≤.j≤咒)与Ai(1≤i≤矾)之间的相似度表示为S(Bi,Ai),根据式(3)依次挑选s(E,Ai)最大的依存对,直到句子B中的依存对为空,挑选出一个句子有效依存对集合{6;}.余正涛等:受限域FAQ中文问答系统研究af=max(S(Ai,B1),S(Ai,B2),…,S(A{,B。)),(2)乃=max(s(马,A1),s(马,A2),…,s(马,A。)).(3)2.4领域问句相似度计算在进行问句类型判断和问句依存对提取后,就可以根据依存对相似度计算获得的两个依存对集合{ai},{6i}进行问句相似度计算,计算公式如下:Sim(A,B)=((∑口;)屈+(∑bj)/咒)2.j;1J=1(4)采用有效句法依存对进行问句相似度计算大大降低算法的复杂度,准确率也会得到一定程度的提高.这种方法从句法深度进行考虑,考虑到了词与词之间的依存关系,对句子的理解更加充分,从而能够更准确地得到句子相似度的值.但是,现有的句法分析技术还不够成熟,还无法将所有的句法信息特征全部考虑进来,因此计算会产生一定的误差.3受限域FAQ系统实现基于受限域常问问题FAQ的问答系统包括4个核心部分:FAQ的收集与组织、候选问题集的选择、相似问题检索与答案提取和FAQ库的更新.系统结构如图1所示:用户输入l答案输出P一一一一一一一一一1啊:词语相似度计算:卜-一一一一一一一一一一叫词法分析Il相似问句检索‘‘--………_oa问旬相似度计算:关键词扩展l候选问题集检索三LueeneFAQ数据库歹网络爬虫人工审核入库Web文档新问答对图1受限域FAQ问答系统3.1FAQ的收集与组织FAQ数据库是问答的核心资源,数据主要来源于3种途径:第1种通过网络爬虫从网上自动获取,很多网站已经积累了大量问答对,这为FAQ收集提供了方便;第2种是通过人工组织和整理获得,针对领域问答业务,分类整理和组织FAQ问答对;第3万 方数据391种则是由系统自动记录用户输入但在问句库中不存在的新问句,并把这类问句统一保存到问答历史库中,定期由人工审核整理,把对应的答案和问句一起入库.FAQ通过数据库存储,为提高存取速度,问句和答案分别存放在question和answer两个关系表中,如图2所示:question表图2FAQ问答对的存储结构其中,关系表仅仅用于FAQ的数据存储和答案的定位提取.为便于快速检索,所有的问句都以分建立候选问题集的目的是缩小查找范围,为后由于候选问题集的作用是从大规模问句集中快速取出一个模糊相关、但相对较小的子集合,因此,该部面可以选择使用成熟稳定的检索系统,避免重复劳Web由于汉语与英文不同,词语之间缺少分割标记,以词为处理单位的Lucene无法解析中文文本,因词后的词为索引内容,对应的答案Id为一个索引附加指示字段进行索引,候选问题集的选择从索引文档中提取,而最终答案则根据附加字段中存放的答案Id从数据库中直接输出.3.2候选问题集的选择与问句索引续的相似度计算等复杂的过程都在候选问题集这个相对较小的范围内进行,从而提高系统的检索效率.分的功能可以通过信息检索模块实现.这样,一方动,专注于问答系统核心模块的开发;另一方面,该模块的功能更改、升级换代也非常容易,检索的效率和准确率可以得到有效保证.因此,采用了Lucene用于候选问题集的生成(http://lucene.apache.org/).Lucene作为一个功能强大、跨平台的检索系统,已经得到了广泛应用,如sogou新闻的检索,Jive论坛等.此,我们增加了以下3个关键处理过程,用于实现对中文文本的索引:首先,对输入句子进行分词处理,从而获取问句中的每一个词语.其次过滤问句中的无用信息,主要指停用词的过滤,如过滤句子中的“的”、“儿”、“啊”等以及标点符号等.最后根据获得的词建立索引.常问问题集的索引建立过程如图3392所示:图3FAQ问题集的索引建立过程在构建索引时,首先创建一个索引构建模块,其中索引文件的存储位置和索引内容的分析器在其构造函数中指定,然后顺序读取FAQ库中问句表的每一条记录,并以问句为索引内容,问句ID、问句对应的答案ID为索引关键字建立一个Lucene文档对象,并把生成的文档对象加入到索引构建模块中,如此循环直到把所有问句都加入到索引文档.确定候选问题集后,进一步工作就是从候选集中挑选出与目标问句最为相似的问句.相似问句检索的思想是计算候选问题集中每个问句与目标问句之间的相似度,取相似度大于系统指定阈值A的问句作为相似问句,并根据该问句对应的答案ID,从数据库中自动抽取出有关答案作为输出结果返回给用户.本文根据受限域问句特点,综合词语义信息、问句句法依存关系及领域概念关系进行相似度计算,具体方法见第2节内容,最终实现中文问句的相似度计算.考虑到相似度的计算误差,系统在给出最优答案的同时,还可以给出前恕条次优记录,供用户选择,如果最优答案并不真正相关,用户还可以进一步从这些候选答案中查找.从用户的角度来说,如果能够把相关问题快速确定到一个较小的集合之中,系统的实用价值就体现出来了.3.4FAQ库的更新由于人们经常有新的问题加入,因此,需要经常扩展新的问题到FAQ中,扩展问题首先必须判断新输入的问题是否在FAQ中有相同或相似问题,判断相似问题必须计算用户输入的目标问句与候选问题集中问句的相似度,如果两个问句之间相似度不小于指定的阈值车,则认为FAQ中该问句与输入问句在语义上等同,是同一个问题的两种说法,不需要扩展相关问题.如果两个问句相似度小于阈值拿,就表示现有的FAQ库中没有用户所问的问题,因此,系万 方数据计算机研究与发展2007,44(增刊)统首先把该问句记录到问答历史库中,并定期由计算机辅助人工整理,把历史库中的新问题和对应的答案加入FAQ库中并建立增量索引,从而实现FAQ更新.4云南旅游FAQ问答原型实验系统针对云南旅游领域,构建了旅游领域知识库,通过“知网”扩展了728个领域概念得到“领域知网”,采用检索方式与人工方式收集和组织了5427个问答对,提取了188个不同问句类型特征规则,采用web方式实现了云南旅游FAQ问答系统.目前,对该系统进行了两个方面的测试:一方面是面向问句语料库的问答测试,其中问句语料库收集了关于云南旅游的8651个问题,其中部分问题收集了答案,在FAQ中存储,部分问题没有答案,从问句语料库中任意选取600个问句进行测试;另一方面是面向实际用户现场测试,组织了10位游客随机询问问题.实验结果如表1所示.从实际实验结果看,通过这种方法设计的云南旅游FAQ问答系统是可实用的.表1云南旅游FAQ问答原型系统测试结果5结束语在当前自然语言处理技术还不是很成熟时,采用FAQ问答模式可以在一定程度上降低对自然语言处理的难度,尤其是利用领域知识资源来辅助自然语言问答的理解过程,在一定程度上可以大大提高问答的准确程度,是一种非常好的问答人机交互实现模式,在很大程度上大大提高了问答系统的实用性.进一步的研究将集中在如何结合信息检索技术和领域知识资源以互连网为资源进行答案的检索和抽取.参考文献[1]EVoorhees,DTice.TheTREc8questionansweringtrackevaluation.The8thTextREtrievalConf,Gaithersburg.20003.3相似问题的检索与答案提取余正涛等:受限域FAQ中文问答系统研究[2]KHammond,RBurke,CMartin,∥a1.FAQfinder:Ac*basedapproachtoknowledgenavigation.ArtificialIntdligenceforApplications,LosAngeles,1995[3]LVHuu,TAndrea.FAQshare:Afrequentlyaskedquestionsvotingsystemasacollaborationandevaluationtoolinteachingactivities.The14thInt’lConfOilSoftwareEngineeringandKnowledgeEngineering,Ischia,Italy,2002[4]刘群,李察建.基于《知网》的词汇语义相似度计算.第3届中文词汇语义学研讨会,台北.2002[5]SNirenburg.Twoapproachesofmatchinginexample-basedmachinetranslation.TMI一93,Kyoto,1993[6]秦兵,刘挺,王洋,等.基于常问问题集的中文问答系统研究.哈尔滨工业大学学报,2003,35(10):1179-1182[7]S“,JZhang。eta1.SemanticcomputationinChinesequestion-answeringsystem.JournalofComputerScienceandTechnology,2002,17(6):933—938[8]李彬,刘挺,秦兵,等.基于语义依存的汉语句子相似度计算.计算机应用研究,2003,12(12):15—17[9]车万翔,刘挺,秦兵。等.基于改进编辑距离的中文相似句子检索.高技术通讯,2004,20(7):15—19[10]夏天,樊孝忠,骆正华.改进编辑距离算法与汉语句子相似度计算.第2届中国优秀博士生学术年会,苏州。2004万 方数据393[Ill余正涛,樊孝忠,郭剑毅.基于支持向量机的汉语问句分类研究.华南理工大学学报,2005,33(9):25—29余正涛男,1970年生,博士,教授,主要研究方向为自然语言处理、中文问答系统、机器学习.在国内外发表论文50余篇.邓锦辉男,1978年生,硕士研究生,主要研究方向为中文问答系统.韩露男,1984年生,硕士研究生,主要研究方向为自然语言处理.毛存礼男,1978年生,硕士研究生,主要研究方向为自然语言处理.郑志蕴女,1962年生,博士,副教授,主要研究方向为数据挖掘、数字图书馆、信息处理.郭剑毅女,1964年生,硕士,教授,主要研究方向为数据挖掘、模式识别、信息处理.

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- huatuo0.com 版权所有 湘ICP备2023021991号-1

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务