基于开源平台的医学数据集成应用与研究
数据源,异构,1系统设计及框架,2实现方法,3关键技术问题及解决方案,4应用现状,5总结
李越飞,李少云,冯虎翼,周凯欣,周乐明(1.重庆市第五人民医院大数据实验室,重庆 400062;2.中国科学院大学生命科学学院,北京 100049;3.重庆市卫生健康统计信息中心大数据应用发展部,重庆 401120)
随着医院信息系统在医院信息化建设和现代化管理中的普及,海量增长的医疗数据已经成为了宝贵的科研资源。科学而有效的利用这些数据,对于医学研究和药物研发等都是极其重要的方法和手段。然而,绝大多数医院信息系统仅服务于医院的诊疗流程,存在系统数据存储和标准的不统一,质量控制不完善等问题。这使得医院所有的业务系统数据集几乎都无法达到“科研数据集”的标准[1]。基于医院临床数据构建医疗大数据集成平台,形成健康医疗大数据的生态体系,进一步发挥数据的资源优势,已成为越来越多大型研究型医院以及临床专家的共识。然而,健康高效的医疗大数据科研生态体系的形成,需要大量的资金投入与长时间持续的数据治理,这对于大部分中小型医院不太现实。与此同时,医疗科研需求越来越多。如果能快速有效的通过开源数据集成工具,从面向医疗流程设计的数据库中抽取数据并转换成科研数据集[1],将会使大部分中小型医院获益。数据集成的三个基本环节:抽取(extract)、转换(transform)、加载(load)简称ETL[2]。抽取是将数据从已有的数据源中提取出来,转换是对原始数据进行处理,加载是将数据写入目标数据库。开源技术已经成为整个互联网时代的支撑技术,其透明性、可控性、安全性及稳定性深受业界青睐。采用开源平台及技术来实现数据ETL,能够有效提升科研效率,节省科研经费,具有可观的应用价值。本文结合重庆市第五人民医院的医疗信息系统及中国科学院科技服务网络计划(STS)项目的数据需求为实例,总结运用开源平台及技术实现从医疗数据集到科研数据集的转换及清理,现报道如下。
1 系统设计及框架
1.1 系统现状及需求分析 以“适配特定人群院内医疗真实世界数据[3]”为例,需要提供以患者为导向的信息如下:①患者基本信息;②历次发药记录、药品目录;③门诊、住院医嘱、诊断情况;④病历、手术记录;⑤检查、检验项目结果。上述数据并非存储在单一的系统里,而是分别存在医院的患者体检系统(PEIS)、电子病历(EMR)和医院信息系统(HIS)中。这些系统由不同的服务商提供,其数据存储在不同的数据库中,如PEIS 的数据存储在SQL Server,EMR 的数据存储在Oracle,HIS 的数据存储在SybaseASE。从这些异构数据库提取所需数据的难点在于:①三个系统是医院的主要业务系统 ......
您现在查看是摘要页,全文长 11064 字符。