区域医疗卫生信息平台实现门诊疾病互联互通标准的医疗大数据匹配算法(3)
2处理目标字符串中的标点以及特殊符号
因为目标字符串有些为医生输入的门诊诊断数据所以会存在标点或者特殊符号,这里采用字符串缓冲区保存匹配上对应的编码值,最后返回字符串缓冲区中的结果。
例如:要匹配的目标数据如下为门诊的数据:
甲亢;高血压病,扁桃体炎
规范编码表其中的两条数据:
甲亢E05900
高血压病I10x00
扁桃体炎J03903
匹配之前先创建一个字符串缓冲区strbuf,按照从最大长度开始,每次需要依次递减一个字符的长度开始,第一次匹配到的是”甲亢”,处理之后目标字符串变为:” 手足口,腹泻”strbuf的值为”E05900”,依次类推,第二次目標匹配后处理之后的目标字符串为:”,扁桃体炎”strbuf的值为”E05900, I10x00”,最后目标字符串为:”,”strbuf的值为” E05900, I10x00,J03903”并且这个strbuf作为最终的结果返回。
(六)结论
为了验证疾病标准匹配算法的可行性,基于深圳市福田区区域医疗卫生数据交换平台对未经标准匹配的三种疾病(支气管炎、高血压、糖尿病)的数量与标准匹配后的三种疾病数量进行了对比测试。目前区域平台已接入了5家公立医院,77家社康中心及多个公卫机构的系统,健康档案数据库已超过170多万笔业务数据,平均每天产生20万以上的诊疗数据量。
选取的测试数据范围:深圳市福田区各医疗机构在2016年、2017年的门诊有诊断记录的支气管炎、高血压、糖尿病三类疾病的诊断数据。
年份
未标准化疾病的人次检索数标准化后疾病的人次检索数
高血压糖尿病支气管炎高血压糖尿病支气管炎
2016345587863160136559349060120202
2017331616838304677025251471114013
因此,本标准匹配算法具有以下优点:
(1)系统自动更新词库表,提高了诊断数据匹配度和信息完整度;
(2)建立二级词库表,应用于不同情况的实际数据需求。
在各家医疗机构对疾病诊断名称的命名多样化、不标准的基础上,从实验数据结果中可看出,在直接根据诊断名称进行该疾病的数量统计时,明显小于标准匹配后的数量。而通过区域医疗卫生数据交换平台进行互联互通时,数据的标准化程度影响了数据交换的准确性,因此利用疾病在通过标准匹配算法后得到的数据进行数据交换,远远要比利用未标准匹配的数据进行数据交换更准确更有意义。
参考文献
[1]异构医疗信息系统的语义级集成实现孟庆崧,戴鲁男《中国数字医学》,2012, 07 (6):51-53
[2]基于SOA解决异构医疗信息系统的互联互通何安勇上海交通大学 , 2010, 百拇医药(王浩 王艺元 陈汝林 李杰)
因为目标字符串有些为医生输入的门诊诊断数据所以会存在标点或者特殊符号,这里采用字符串缓冲区保存匹配上对应的编码值,最后返回字符串缓冲区中的结果。
例如:要匹配的目标数据如下为门诊的数据:
甲亢;高血压病,扁桃体炎
规范编码表其中的两条数据:
甲亢E05900
高血压病I10x00
扁桃体炎J03903
匹配之前先创建一个字符串缓冲区strbuf,按照从最大长度开始,每次需要依次递减一个字符的长度开始,第一次匹配到的是”甲亢”,处理之后目标字符串变为:” 手足口,腹泻”strbuf的值为”E05900”,依次类推,第二次目標匹配后处理之后的目标字符串为:”,扁桃体炎”strbuf的值为”E05900, I10x00”,最后目标字符串为:”,”strbuf的值为” E05900, I10x00,J03903”并且这个strbuf作为最终的结果返回。
(六)结论
为了验证疾病标准匹配算法的可行性,基于深圳市福田区区域医疗卫生数据交换平台对未经标准匹配的三种疾病(支气管炎、高血压、糖尿病)的数量与标准匹配后的三种疾病数量进行了对比测试。目前区域平台已接入了5家公立医院,77家社康中心及多个公卫机构的系统,健康档案数据库已超过170多万笔业务数据,平均每天产生20万以上的诊疗数据量。
选取的测试数据范围:深圳市福田区各医疗机构在2016年、2017年的门诊有诊断记录的支气管炎、高血压、糖尿病三类疾病的诊断数据。
年份
未标准化疾病的人次检索数标准化后疾病的人次检索数
高血压糖尿病支气管炎高血压糖尿病支气管炎
2016345587863160136559349060120202
2017331616838304677025251471114013
因此,本标准匹配算法具有以下优点:
(1)系统自动更新词库表,提高了诊断数据匹配度和信息完整度;
(2)建立二级词库表,应用于不同情况的实际数据需求。
在各家医疗机构对疾病诊断名称的命名多样化、不标准的基础上,从实验数据结果中可看出,在直接根据诊断名称进行该疾病的数量统计时,明显小于标准匹配后的数量。而通过区域医疗卫生数据交换平台进行互联互通时,数据的标准化程度影响了数据交换的准确性,因此利用疾病在通过标准匹配算法后得到的数据进行数据交换,远远要比利用未标准匹配的数据进行数据交换更准确更有意义。
参考文献
[1]异构医疗信息系统的语义级集成实现孟庆崧,戴鲁男《中国数字医学》,2012, 07 (6):51-53
[2]基于SOA解决异构医疗信息系统的互联互通何安勇上海交通大学 , 2010, 百拇医药(王浩 王艺元 陈汝林 李杰)