专利名称:基于互信息和条件随机场模型的中文领域术语识别
方法
专利类型:发明专利
发明人:彭琳,刘宗田,杨林楠,张立敏申请号:CN201210528734.8申请日:20121211公开号:CN103049501A公开日:20130417
摘要:本发明公开了一种基于互信息和条件随机场模型的中文领域术语识别方法,其步骤如下:(1)收集领域文本语料,对语料中所有的标点符号、空格、数字、ASCII字符以及汉字以外字符进行标记;(2)设置字串,计算字串的互信息值;(3)计算字串左右信息熵;(4)定义字串评价函数,设置评价函数阈值,计算各字串的评价函数值,确定字串为词,依次比较该字串中前一字的评价函数值与后一字评价函数值相比较,逐一对字义字串分词;(5)利用条件随机场训练出一个领域术语条件随机场模型,用该模型对进行领域术语识别。该方法在术语识别时,不仅能克服合法术语的数据稀疏,降低了条件随机场算法的运算量,而且能够提高中文领域术语识别精度。
申请人:上海大学
地址:200444 上海市宝山区上大路99号
国籍:CN
代理机构:上海上大专利事务所(普通合伙)
代理人:陆聪明
更多信息请下载全文后查看
因篇幅问题不能全部显示,请点此查看更多更全内容
Copyright © 2019- huatuo0.com 版权所有 湘ICP备2023021991号-1
违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com
本站由北京市万商天勤律师事务所王兴未律师提供法律服务