当前位置: 首页 > 期刊 > 《世界中医药》 > 2012年第6期
编号:230955
网络论坛中中医药信息的聚类分析研究
http://www.100md.com 2012年11月21日 世界中医药 2012年第6期
分词,数据挖掘,预处理,1研究背景,2研究方法,3结语
     田 野 贾李蓉 李园白 刘 静 刘丽红 李敬华 于 彤 杨 策 张竹绿

    (中国中医科学院中医药信息研究所,北京市东城区东直门内南小街16号,100700)

    1 研究背景

    近年来,随着INTERNET网络在国内的普及以及互联网用户的大量增加,以文本信息为载体的网络论坛已经成为人们获取信息[1],发表个人看法或评论,与其他人进行交流的重要平台[2-3]。每天在线论坛中皆会涌现大量主题信息,这些信息的特点往往是数量巨大,难于持久,也就是说发表过的主题隔一段时间就会被后来出现的主题所替代,最终淹没在诸多主题信息中。这些信息虽然数量庞大,但往往内容杂乱,即使有一些信息是有效的,也很容易被淹没掺杂在无效垃圾信息之中。

    从这些海量的、有噪声的数据中提取挖掘出隐含其内、但又有用的信息知识是我们要尝试进行探讨的问题。数据挖掘是一门新近的热门研究方法,它是从大型数据集中发现可行信息的过程,数据挖掘使用数学分析来派生存在于数据中的模式和趋势。通常,由于这些模式的关系过于复杂或涉及数据过多,因此使用传统数据浏览无法发现这些模式。它主要探讨如何在海量的、有噪声的、模糊的数据资料中,挖掘出潜在的有用信息,从而为相关决策人员提供数据参考。

    2 研究方法

    2.1 选择数据 数据的选择是根据需求设定数据抽取目标 ......

您现在查看是摘要页,全文长 5361 字符