面向真实世界的知识挖掘与知识图谱补全研究（三）：基于正则表达

面向真实世界的知识挖掘与知识图谱补全研究（三）：基于正则表达式对膀胱癌真实世界数据的结构化信息抽取

http://www.100md.com 2024年4月8日医学新知 2024年第3期

字段,词典,1资料与方法,1数据源及抽取字段,2抽取方法,3代码示例及详解,2结果,3讨论

     马文昊，石涵予，黄桥，黄兴，王永博，王诗淳，任相颖，施悦，靳英辉，阎思宇

    1. 武汉大学中南医院循证与转化医学中心(武汉 430071)

    2. 武汉大学第二临床学院(武汉 430071)

    3. 武汉大学弘毅学堂(武汉 430072)

    4. 浙江大学医学院附属第一医院泌尿外科(杭州 310003)

    5. 武汉大学中南医院信息中心(武汉 430071)

    美国食品和药物监督管理局在《真实世界证据方案的框架》[1]中将真实世界数据(realworld data，RWD)定义为“与患者健康状况有关的和(或)日常医疗过程中收集的各种来源的数据”。RWD 包括来源于卫生信息系统、电子病历(electronic medical record, EMR)、医保系统的数据和来自移动设备端如可穿戴设备获得的相关数据等。随着诊疗数据的几何级增长，基于EMR 数据开展的真实世界研究越来越受重视，如进行真实环境下干预措施效果和安全性的评价研究[2]，但在实施时仍面临一些挑战。EMR 数据产生的初始目的不是用于临床研究而是服务于临床实践，因此除结构化字段外，还包括大量半结构化、非结构化文本，并且各医疗机构之间数据的记录与储存尚缺乏统一标准，对于数据记录方面的规范化培训和质量控制不足，导致原始数据质量参差不齐，增大了研究者数据挖掘工作的难度。因此如何基于现有EMR 数据进行结构化信息抽取是一个不小的挑战。

    信息抽取作为自然语言处理的子领域，其方法主要包括基于人工编写规则的信息抽取方法和基于统计学方法的信息抽取方法[3]。基于人工编写规则的信息抽取方法相对简单但高度依赖于人工编写的规则集，适用于有一定结构规律的自然语言文本。正则表达式(regular expression, RE)是对字符串操作的一种逻辑公式，即是用事先定义好的一些特定字符及其组合，组成一个“规则字符串”，用以表达对字符串的一种过滤逻辑。RE 是一种文本模式，该模式描述了在搜索文本时要匹配的一个或多个字符串[4]，可以作为一种过滤工具，实现对RWD 的结构化信息抽取。近些年来，RE 在医学领域有着广泛的应用。例如国外学者应用RE于神经外科手术登记表的构建，显著减少了人工工作量并促进相关临床研究[5]；Flores 等[6]使用RE 从生物医学文本中提取特征值，有较高的准确性，可为数据集进一步分析奠定基础；在对医学指南中事件句型进行相关匹配与抽取的研究中，RE 可高效准确地将医学指南中的事件自动转换成XML 结构化数据[7]。

    考虑到EMR 数据中大部分目标字段具有一定的表达规律 ......

百拇医药网 http://www.100md.com/html/paper/1004-5511/2024/03/009.htm

您现在查看是摘要页，全文长 15191 字符。