临床病案数据模块化策略和数据抽取实践
陈召霞 黄雪群 雷永健 刘道文 季东 刘雯姗 沈恩璐 渠田田 冯铁男


[摘要]?目的?设计一种更有效的方法提升临床数据中非结构数据的提取率以供临床应用。方法?基于真实的病案数据,设计病案数据模块化解析法结合混合算法抽取指标集结果,通过人工与自动化校验相结合的方法验证抽取结果。结果?该方法已在专病库数据平台实现,10份患者病案的指标集一致率(召回率)为99%,填充率为91.8%。结论?该方法提升了非结构化病案数据提取率和一致率,相较纯算法效果明显。
[关键词]?临床病案数据模块化;构建语义标签确定模型;语料库;填充率
[中图分类号]?N37?[文献标识码]?A?[DOI]?10.3969/j.issn.1673-9701.2024.17.021
病程记录、手术记录等非结构化数据中包含大量诊疗信息,但这些数据无法直接用于研究分析,需要进行数据清洗和提取才能使用[1]。但准确、全面提取这些信息费时费力,即使引入算法仍然很难达到研究所需数据标准[2]。如何高效高质从非结构化数据中提取符合研究标准的数据是提升临床研究效率的关键技术[3]。本研究参考现有的临床数据采集协调标准(clinical?data?acquisition?standards?harmonization,CDASH)模块定义,结合临床病案数据分布规律,提出了一种将临床病案数据从非结构化到结构化的方法。现以宫颈癌病案为研究对象,进行策略验证和效用评估,为非结构病案中的数据抽取提供参考。
1?资料与方法
1.1?非结构临床数据解析现况分析
目前主流非结构临床数据提取方法是将以自然语言方式记录的医疗文档按照医学术语的要求进行系统分析,最终以关系型(或者面向对象的)结构将这些语义数据输入到数据库中[4]。目前已有大量语义分析大模型(如Convolutional?Neural?Network ......
您现在查看是摘要页,全文长 9952 字符。