当前位置: 首页 > 期刊 > 《中国中医药信息杂志》 > 2015年第2期
编号:12624478
中医医案文献自动分词研究(2)
http://www.100md.com 2015年2月1日 中国中医药信息 2015年第2期
     1 资料与方法

    1.1 分词模型

    汉语分词的主要瓶颈是切分排歧和未登录词识别,采用层叠隐马模型(hierarchical hidden Markov model,HHMM)的词法分析框架较好地解决了这一问题。该模型是中国科学院计算技术研究所在传统隐马模型(hidden Markov model,HMM)基础上进行扩展及泛化后提出的,基于这一框架研制的汉语词法分析系统(Institute of Computing Technology Chinese Lexical Analysis System,ICTCLAS),将中文分词、词性标注、命名体识别、切分排歧等词法分析任务整合到一个相对统一的理论模型中,是目前最好的汉语词法分析系统之一,分词精度达到98.45%[1]。

    本研究基于JAVA实现了ICTCLAS的算法,基本流程见图1。首先是对中医医案的文本进行原子切分,同时完成大小写、简繁体、全角半角的规范,其次引入中医领域词典完成N-最短路径的粗切分以覆盖尽可能多的歧义,然后通过多层隐马模型对未登录词进行识别,接着用基于类的隐马模型进行全局最优分词,最后对分词结果进行词性标注[2]。

    图1 基于HHMM汉语词法分析框架

    1.2 建立中医领域词典

    对于中医医案文献来说 ......
上一页1 2 3下一页

您现在查看是摘要页,全文长 4966 字符