当前位置: 首页 > 期刊 > 《医学新知》 > 2023年第5期
编号:1961445
面向真实世界的知识挖掘与知识图谱补全研究(二):非结构化电子病历信息抽取方法及进展
http://www.100md.com 2023年10月28日 医学新知 2023年第5期
术语,1非结构化医学数据信息抽取的研究方法,1基于词典和规则的方法,2基于统计的方法,3基于认知模型的方法,2非结构化电子病历数据处理时的标准化问题,3非结构化电子病历数据处理
     阎思宇,李绪辉,陈沐坤,朱海锋,谭杰骏,高 旷,王永博,黄 桥,任相颖,靳英辉,王行环

    1.武汉大学中南医院循证与转化医学中心(武汉 430071)

    2.武汉大学计算机学院(武汉 430072)

    2015年我国相继出台了《关于积极推进“互联网+”行动的指导意见》和《促进大数据发展行动纲要》,2016年国务院办公厅印发了《关于促进和规范健康医疗大数据应用发展的指导意见》,指出“健康医疗大数据是国家重要的基础性战略资源”[1]。健康医疗大数据已被提升至国家战略高度。在2022年中国医学发展大会上沈洪兵院士同样提到“要关注基于健康医疗大数据的临床真实世界研究,注重与信息技术、人工智能交叉融合”。随着健康医疗大数据的指数级增长,如何对健康医疗大数据进行充分挖掘和分析,提炼数据价值,已成为当今的研究趋势。真实世界研究并非方法学上新的研究类型,而是基于真实世界数据(real-world data,RWD)进行的研究,具有外部有效性高、数据来源广泛、易获取等优点,日益受到研究者的青睐[2-3]。

    医院电子病历(electronic medical record,EMR)主要用于日常医疗实践管理,记录有真实世界下患者详细的就诊数据,是健康医疗大数据及RWD的重要来源之一。中国已有超过九成的医院在应用EMR[4]。随着EMR的普及和诊疗数据的不断积累,虽然数据量一直在增长,但如何基于EMR数据生成高质量真实世界证据的困境一直存在。已有研究指出,医疗保健领域的最大问题是大约80%的医疗数据在创建后仍然是非结构化和未开发的(例如,文本、图像、信号等)[5-6]。为了便于医生灵活描述,EMR中很大比例的信息是使用自由文本记录的非结构化数据,如病程记录、病理报告、影像学报告、手术记录、出院记录等。虽然EMR数据量大,但其中非结构化数据占比高,这让计算机难以理解,因此基于EMR数据的研究依然有限[7]。

    机器学习、人工智能(artificial intelligence,AI)和其他现代统计方法正为利用先前尚未开发且极速增长的数据资源提供新的机会,以期让患者获益[8]。利用计算机算法从医疗健康数据中获取信息,以补充知识发现、促进循证医学、协助制定临床决策,已成为当前研究的热点[9]。

    针对上述电子病历数据中非结构化数据普遍存在且处理困难的问题,本文将对现有的技术方法及新进展进行总结,以提供参考。

    1 非结构化医学数据信息抽取的研究方法

    从非结构化数据中提取结构化信息通常属于信息抽取(information extraction ......

您现在查看是摘要页,全文长 11683 字符