应用Opal和Mica构建数据统一与交流平台及探索信息共享模

应用Opal和Mica构建数据统一与交流平台及探索信息共享模式

http://www.100md.com 2019年6月18日中国医药生物技术 2019年第3期

研究者,异质性,分布式,1数据词典的编写,2基础信息存储,展示和交流,3变量统一与分布式统计分析,4讨论

     周光迪，杜亚涛，吴宇航，王伟业

    近年来，流行病学和转化医学研究中不同项目之间的资源整合越来越广泛。资源的整合可运用于流行病学队列项目，也可运用于医院的临床信息[1-2]。这样的资源整合不用大规模地增加投入，就能满足统计分析所需的大样本量，极大地节约了研究经费和精力的投入[3]。

    尽管数据资源整合的意义重大，但是不同医院/研究组所收集的同病种临床数据，存在多方面的数据异质性，信息不统一导致数据不能直接整合[4-5]。异质性主要存在于三个方面：

    第一，变量种类的不同。对相同的病种，不同医院/研究组对同病种所收集变量的种类不完全相同。无论是从病史询问还是检验项目，每家医院、每位医生、每个研究组都有自己的看法和习惯，同一医生对不同病人所问诊/检查的变量也不完全一致[6]。第二，变量定义的不同。不同医院/研究组对同变量的定义不完全相同。在目前的研究情况下，普遍存在着变量定义的不明确[7]。因此明确变量的定义是数据整合的必要前提之一。第三，变量的采集/检测/表达方式等的不同。包括变量的提问方式不同、变量的检验方式不同[8]等方面。例如询问“你是否有被动吸烟”和“你的家人和同事是否抽烟”，所针对的变量是相同的，但所得到的答案存在异质性。而检验方法、数据单位、取样方式等很多因素都会影响检验的结果，以血糖值为例，病人是否禁食、指尖取血还是静脉取血、数据单位是 mg/dl 还是 mmol/L，都会对结果产生影响。

    为了实现数据共享，我们首先要采取合适的模式方法来交流和统一数据。不同项目的数据信息整合有三种方式：数据池、最小数据集、联盟式[9-10]。数据池指将不同来源的同变量数据直接合并在一起，共同统计分析、整合共享的方式。最小数据集是为特定目的收集的、最少的、被用户和相关人认可的一组选择性的核心数据[11]。联盟式指原始数据不离开本地，在经过物理上分布式的运算中心统计分析后，再将统计结果进行共享[12-13]。我们根据本项目先收集数据、再进行数据整合的回溯性基本特征，再加上法律法规的限制，选择了联盟式的数据整合方式，这也是绝大部分回溯性数据整合项目适用的数据整合方式。

    2014 - 2017年，我们团队与加拿大 Maelstrom 团队合作，成功执行了国家科技部立项的“多中心临床信息共享的中加合作研发”项目及上海市国际科技合作基金项目“建设队列研究数据信息共享机制促进国内国际合作” ......

百拇医药网 http://www.100md.com/html/paper/1673-713X/2019/03/019.htm

您现在查看是摘要页，全文长 8709 字符。