当前位置: 首页 > 期刊 > 《湖南中医药大学学报》 > 2017年第2期
编号:442640
基于中医药领域本体的信息检索模型研究
http://www.100md.com 2017年7月12日 湖南中医药大学学报 2017年第2期
文档,1引言,2系统模型框架,3关键技术研究,4模型实用性分析,5结语
     刘东波,黄惠勇*

    (湖南中医药大学,湖南 长沙 410208)

    ·数字中医药·

    基于中医药领域本体的信息检索模型研究

    刘东波,黄惠勇*

    (湖南中医药大学,湖南 长沙 410208)

    针对传统基于关键词匹配的中医药信息检索存在查全率和查准率低下的缺陷,将本体与潜在语义索引相结合,提出一种基于中医药领域本体的语义信息检索模型。该模型基于本体概念扩展树构建相应的查询扩展方法和语义向量空间模型,将用户查询和文档集映射到同一潜在语义空间,通过计算查询向量与文档之间的相似度返回检索结果。着重阐述了该模型的体系结构、实现过程和关键技术,并对其实用性进行论证。

    中医药领域本体;查询扩展;潜在语义索引;信息检索

    1 引言

    中医学在其长期的发展过程中所形成的医学经典、名家医论、诊疗医案、医学文献具有重要的学术价值和实用价值,是传播中医药知识的重要载体。如何以中医自身的整体观和辨证论治的特点为基础,结合现代信息技术,有效组织、表达和检索中医药信息,已成为总结中医药诊疗规律、转化隐性的中医药诊疗经验为可共享的显性知识、传承和创新中医药知识的必要途径[1]。

    当前通过互联网获取中医药信息的途径中,无论是中医药专业网站、医学搜索引擎与目录,还是通用web检索工具(如baidu、Google等),本质上都是基于关键词匹配来获取检索结果。然而,自然语言中所固有的歧义性导致基于关键词的全文检索在对查询的描述上存在模糊性,“一义多词”的存在使得大量相关的信息难以被检索到,“一词多义”的存在使得返回的检索结果中存在大量无关的噪声信息,从而导致检索系统的查全率和查准率低下。

    中医学以整体论为指导,采用取象比类的方法,对人体功能状态进行描述,存在大量的古汉语成分,术语描述不规范,一词多义、一义多词的现象普遍存在,数据描述具有模糊性、不确定性和非结构化等特点。这使得中医药知识在客观表达上,在信息的存储、共享和互操作上存在很大障碍,进一步加剧信息检索的不精确性。

    智能信息检索是支撑下一代互联网的核心技术之一,也是解决中医药信息化过程中高效、准确地获取知识的关键一环。将语义处理技术应用于信息检索,则是智能检索的重要方向。本文将本体与潜在语义索引相结合,提出一种基于中医药领域本体的语义信息检索模型。将本体、自然语言处理、语义向量模型等多种技术相结合,构建基于本体概念扩展树的查询扩展方法和语义向量空间模型,有效提高信息检索的查全率和查准率。

    2 系统模型框架 ......

您现在查看是摘要页,全文长 16189 字符