应用Opal和Mica构建数据统一与交流平台及探索信息共享模式
研究者,异质性,分布式,1数据词典的编写,2基础信息存储,展示和交流,3变量统一与分布式统计分析,4讨论
周光迪,杜亚涛,吴宇航,王伟业近年来,流行病学和转化医学研究中不同项目之间的资源整合越来越广泛。资源的整合可运用于流行病学队列项目,也可运用于医院的临床信息[1-2]。这样的资源整合不用大规模地增加投入,就能满足统计分析所需的大样本量,极大地节约了研究经费和精力的投入[3]。
尽管数据资源整合的意义重大,但是不同医院/研究组所收集的同病种临床数据,存在多方面的数据异质性,信息不统一导致数据不能直接整合[4-5]。异质性主要存在于三个方面:
第一,变量种类的不同。对相同的病种,不同医院/研究组对同病种所收集变量的种类不完全相同。无论是从病史询问还是检验项目,每家医院、每位医生、每个研究组都有自己的看法和习惯,同一医生对不同病人所问诊/检查的变量也不完全一致[6]。第二,变量定义的不同。不同医院/研究组对同变量的定义不完全相同。在目前的研究情况下,普遍存在着变量定义的不明确[7]。因此明确变量的定义是数据整合的必要前提之一。第三,变量的采集/检测/表达方式等的不同。包括变量的提问方式不同、变量的检验方式不同[8]等方面。例如询问“你是否有被动吸烟”和“你的家人和同事是否抽烟”,所针对的变量是相同的,但所得到的答案存在异质性。而检验方法、数据单位、取样方式等很多因素都会影响检验的结果,以血糖值为例,病人是否禁食、指尖取血还是静脉取血、数据单位是 mg/dl 还是 mmol/L,都会对结果产生影响。
为了实现数据共享,我们首先要采取合适的模式方法来交流和统一数据。不同项目的数据信息整合有三种方式:数据池、最小数据集、联盟式[9-10]。数据池指将不同来源的同变量数据直接合并在一起,共同统计分析、整合共享的方式。最小数据集是为特定目的收集的、最少的、被用户和相关人认可的一组选择性的核心数据[11]。联盟式指原始数据不离开本地,在经过物理上分布式的运算中心统计分析后,再将统计结果进行共享[12-13]。我们根据本项目先收集数据、再进行数据整合的回溯性基本特征,再加上法律法规的限制,选择了联盟式的数据整合方式,这也是绝大部分回溯性数据整合项目适用的数据整合方式。
2014 - 2017年,我们团队与加拿大 Maelstrom 团队合作,成功执行了国家科技部立项的“多中心临床信息共享的中加合作研发”项目及上海市国际科技合作基金项目“建 设队列研究数据信息共享机制促进国内国际合作” ......
您现在查看是摘要页,全文长 8709 字符。