基于临床分布式大数据知识图谱的设计与应用研究_实体

基于临床分布式大数据知识图谱的设计与应用研究

http://www.100md.com 2023年5月24日 2023年第3期

实体,可视化,1知识图谱构建,1构建流程,2数据抽取,3知识表示,4知识存储,5知识可视化,6图谱嵌入,2应用场景及结果,3讨论

     李宏伟严武

    “十四五”规划中提出：加快数字化发展，建设数字中国，培育壮大人工智能、大数据、云计算等新兴数字产业，加快构建数字技术辅助决策机制，提高基于高频大数据精准动态监测预测预警水平，提升大数据等现代化技术手段辅助治理能力，推进大数据智能化平台建设。临床大数据中存储了丰富的患者信息，包括患者电子健康记录、过去诊疗结果、此次诊断说明、用药方案等。这些信息提供了患者完整的健康状况和其他有价值的信息[1-2]。随着信息系统的发展，医院的临床大数据也越来越庞大，研究这些信息可以为疾病关联、辅助诊疗、用药推荐等带来重大进步。然而，目前大多数临床数据都是以自然语言形式记录，以结构化如诊断代码、实验室结果等，或非结构化如临床记录、进展记录等格式进行存储，研究人员很难对其进行统计分析和处理。随着信息技术的发展，需要开发一种强大的信息管理工具来收集和分析庞大的临床数据。

    知识图谱用于描述现实中存在的各种概念和实体及它们之间的复杂关系，目的在于提升其搜索引擎的性能，优化用户在搜索过程中的体验。由于当前的自然语言处理方法还不够完善，知识图谱的构建往往需要付出很大的代价，完全自动化的构建方式难以得到较为准确的知识图谱[3-4]。针对临床大数据已经提出了几种从医疗记录的自由文本部分提取实体的提取系统和方法[5-6]。目前，在生物医学领域广泛使用的工具是cTAKES[7]和MetaMap[8]。cTAKES和MetaMap 都使用统一医学语言系统(Unified Medical Language System, UMLS)来提取和标准化医学概念，提取医疗实体，如疾病分类、疾病诊断、药物等。cTAKES 结合了基于规则和机器学习技术从临床分布式数据中提取信息，以顺序执行组件的方式来处理临床文本。MetaMap 将生物医学文本映射到统一医学语言系统中的概念，结合自然语言处理和混合方式，发现文本中提到的叙词表和生物医学文献的半自动和全自动索引。临床大数据的数量正以指数速度增长，如何高效地构建领域内准确的知识图谱是亟需解决的一大难题。为了解决这一难题，本文着重于提出一个有效的流程来处理庞杂的医疗数据，并构建一个可靠的医学知识库。

    1 知识图谱构建

    1.1 构建流程

    针对临床大数据中广泛分布的实体，本文设计和实现了临床分布式大数据知识图谱的构建架构和流程。知识图谱构建框架见图1，包括数据获取、实体抽取、关系抽取、实体对齐、本体构建、图谱构建和展示。

......

百拇医药网 http://www.100md.com/html/paper/2095-7432/2023/03/024.htm

您现在查看是摘要页，全文长 10030 字符。