当前位置: 首页 > 期刊 > 《医学信息》 > 202023
编号:13836717
基于真实世界数据的疾病风险预测研究(2)
http://www.100md.com 2020年6月11日 《医学信息》 202023
     2.2大数据治理 对采集汇聚的数据进行清洗加工处理,并做标准化整理。主要包括制定数据清洗流程、清洗流程控制、清洗质量控制、清洗过程管理等。通过规范流程和规则库,基于流程引擎构建统一的、可配置的数据转换、清洗、比对、关联、融合等加工处理过程,对异构异源海量离散的数据资源加工生产,生成易于分析利用的、可共享的数据。通过部署大数据计算框架,基于多种算法库,实现大数据存储访问及分布式计算任务调度、多维索引数据的深度搜索和全文检索等功能。建立基于分布式并行计算架构,部署服务器集群,具备横向扩展能力,可以动态增加或减少计算资源和存储资源,支持 PB量级离线计算和在线计算。部署非关系型数据库 HBase、数据仓库Hive、数据处理工具Sqoop、机器学习算法库Mahout、一致性服务软件ZooKeeper、管理工具Ambari等,或者其他大数据计算框架如 Map Reduce、Spark、Tez等,部署搜索引擎Elasticsearch用于全文检索、结构化检索和分析[11]。

    2.3疾病风险模型构建 疾病风险模型的构建通过深度学习技术构建深度分层特征,自动学习数据表征,有效捕获数据的依赖关系,采用Catboost、LightGBM、XGBoost、GBDT、Adaboost、SVM、MLP等机器学习算法挖掘电子病历数据中的信息进行临床终点预测,包括疾病诊断、死亡率、住院时长、无计划再入院等临床终点事件的预测[12] ......
上一页1 2

您现在查看是摘要页,全文长 5407 字符