中医医案文献自动分词研究(论著)

中医医案文献自动分词研究(2)

http://www.100md.com 2015年2月1日中国中医药信息 2015年第2期

     1 资料与方法

    1.1 分词模型

    汉语分词的主要瓶颈是切分排歧和未登录词识别，采用层叠隐马模型(hierarchical hidden Markov model，HHMM)的词法分析框架较好地解决了这一问题。该模型是中国科学院计算技术研究所在传统隐马模型(hidden Markov model，HMM)基础上进行扩展及泛化后提出的，基于这一框架研制的汉语词法分析系统(Institute of Computing Technology Chinese Lexical Analysis System，ICTCLAS)，将中文分词、词性标注、命名体识别、切分排歧等词法分析任务整合到一个相对统一的理论模型中，是目前最好的汉语词法分析系统之一，分词精度达到98.45%[1]。

    本研究基于JAVA实现了ICTCLAS的算法，基本流程见图1。首先是对中医医案的文本进行原子切分，同时完成大小写、简繁体、全角半角的规范，其次引入中医领域词典完成N-最短路径的粗切分以覆盖尽可能多的歧义，然后通过多层隐马模型对未登录词进行识别，接着用基于类的隐马模型进行全局最优分词，最后对分词结果进行词性标注[2]。

    图1 基于HHMM汉语词法分析框架

    1.2 建立中医领域词典

    对于中医医案文献来说 ......

百拇医药网 http://www.100md.com/html/paper/1005-5304/2015/02/12-1.htm

您现在查看是摘要页，全文长 4966 字符。