当前位置: 首页 > 期刊 > 《医学信息》 > 2022年第2期
编号:448159
面向临床数据中心的信息检索研究与应用
http://www.100md.com 2022年3月1日 医学信息 2022年第2期
分片,分词,病案,1数据模型梳理及索引构建,2索引的优化方法,3实际检索场景验证,4总结
     武学鸿,朱建平,李建华

    (1.中南大学计算机学院,湖南 长沙 410083;2.湖南科医云健康科技有限公司,湖南 长沙 410012;3.湖南科创信息技术股份有限公司,湖南 长沙 410012)

    临床数据中心(clinical data centers,CDR)随着电子病历应用的不断丰富而持续发展[1-3],其包含了患者所有重要的临床数据,可集成院内各科室级临床信息系统(医嘱、病历、检验、手术、心电、超声、病理等),实现所有临床诊疗数据的整合与集中展现,并为医疗诊断决策提供支持信息。临床数据中心具有数据量大、增长快、关联关系复杂、价值高等特点[4-6]。面对如此庞大的数据规模,传统的关系型数据库在存储能力、检索效率,尤其是多表关联检索等方面,往往无法有效满足临床医生、科研人员等对信息获取的需求[7-9]。本文提出了应用Elasticsearch分布式搜索引擎技术实现面向临床数据中心的信息检索方法[10-13],结合数据本身及搜索引擎技术特性[14],制定相应的优化策略,并通过实际检索场景验证本方法的效果,现总结如下。

    1 数据模型梳理及索引构建

    1.1 数据模型梳理 临床数据主要是以患者为中心,本次围绕患者住院信息选择了具有代表性的八类数据来进行相关分析,八类数据信息分别是:病案首页、检验信息、病历文书、医嘱信息、费用信息、手术信息、诊断信息、检查信息,其描述见表1。将表1 中八类数据以面向主题的方式进行整合,以病案首页为核心,其他数据与之形成关联,见图1。

    图1 以病案首页为核心的关联关系模型

    病案首页中包含了患者的基本信息,以病案首页信息为中心,其他数据表信息与其构成了父子关联模型,即病案首页信息为父表,检验信息、病历文书、医嘱信息等都为子表。通过该模型,在检索的业务需求中可以根据1个或者多个子表中的1个或者多个字段来查询病案首页信息或者根据病案首页信息来查询任意1个子表的信息。上述模型结构在面向极端场景时,即根据7个子表同时关联来查询病案首页信息,尤其是表的数据规模达到亿级别以上时,传统关系型数据库往往难以支撑。Elasticsearch不仅支持分布式索引数据存储还原生的支持父子关联索引模型,同时在父子关联模型查询接口上提供了很好的支撑,可实现由父查子以及由子查父的关联检索场景[15-17] ......

您现在查看是摘要页,全文长 10266 字符