当前位置: 首页 > 期刊 > 《中华现代内科学杂志》 > 2006年第11期
编号:11295660
数据挖掘技术在中医药研究中的应用
http://www.100md.com 《中华现代内科学杂志》 2006年第11期
数据挖掘技术,1数据挖掘的概念、步骤及常用方法,2中医病历中医学数据挖掘的特点,3数据挖掘在中医药研究中的应用,4小结与展望,[参考文献]
     随着医学机构积累的数据越来越多,促进了医学信息包括中医药信息的数字化;如何利用海量信息为防控疾病提供科学依据,总结优化各种诊治方案,已引起业内专家的高度关注。于是数据挖掘技术在中医药研究被日益重视,它将有力促进中医药的现代化进程。

     1 数据挖掘的概念、步骤及常用方法

    1.1 数据挖掘概念、步骤 数据挖掘(Data mining,DM)即数据库中的知识发现,是从大型数据库的海量数据中提取人们感兴趣的知识,这些知识是隐藏的、事先未知的、潜在有用的信息,挖掘的知识表现为概念、规则、规律、模式等形式[1]。数据挖掘的目的在于使用所发现的模式帮助解释当前的行为或预测未来的结果[2]。挖掘步骤大致有:问题定义、数据提取、数据预处理、数据挖掘、知识评估、结果应用这六步。

    1.2 数据挖掘常用方法

    1.2.1 描述统计 数据总结的目的是对数据进行从低层次抽象、浓缩到高层次,得出它的紧凑描述。最简单的数据总结方法是描述统计,它包括平均数、中位数、分位数等,它常和统计图配合应用。

    1.2.2 关联规则 关联规则从本质上讲是条件概率,即当A发生时、B同时出现的概率有多大?只要B离50%较远就有意义。数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性,就称为关联。关联包括简单关联、时序关联、因果关联。关联分析的目的是找出数据库中隐藏的关联网。有时我们并不知道数据库中数据的关联函数,即使知道也不确定。因此关联分析生成的规则带有可信度。

    1.2.3 分类和聚类 这是最常用的技术。分类方法主要有:回归、决策树、神经网络。分类分析在数据挖掘中是一项重要任务。分类器的构造方法有统计方法、机器学习方法、神经网络方法等。聚类是根据事物本身潜在的特性研究对象分类的方法。通过聚类把一个数据集合中的个体按照相似性归成若干类别,使其“物以类聚”,将数据库中的记录划分为一系列有意义的子集。聚类要解决的就是实现满足这种要求的类的聚合。在进行聚类前,这些类别是潜在的,可分割的类的个数(聚类数)也是未知的。聚类大致分为统计方法、机器学习方法、神经网络方法和面向数据库的方法等。

    1.2.4 偏差检测 数据库中的数据可能有一些异常记录,检测这些偏差很有意义。偏差检测的基本方法是寻找观测结果与参照值之间有意义的差别。

     2 中医病历中医学数据挖掘的特点

    目前中医病历中采集的中医学信息具有如下特点。

    2.1 症状的模糊性 中医学对疾病的诊断是通过望、闻、问、切的四诊合参 ......

您现在查看是摘要页,全文长 9900 字符