网络论坛中中医药信息的聚类分析研究_分词_数据挖掘

网络论坛中中医药信息的聚类分析研究

http://www.100md.com 2012年11月21日世界中医药 2012年第6期

分词,数据挖掘,预处理,1研究背景,2研究方法,3结语

     田野贾李蓉李园白刘静刘丽红李敬华于彤杨策张竹绿

    (中国中医科学院中医药信息研究所，北京市东城区东直门内南小街16号，100700)

    1 研究背景

    近年来，随着INTERNET网络在国内的普及以及互联网用户的大量增加，以文本信息为载体的网络论坛已经成为人们获取信息[1]，发表个人看法或评论，与其他人进行交流的重要平台[2-3]。每天在线论坛中皆会涌现大量主题信息，这些信息的特点往往是数量巨大，难于持久，也就是说发表过的主题隔一段时间就会被后来出现的主题所替代，最终淹没在诸多主题信息中。这些信息虽然数量庞大，但往往内容杂乱，即使有一些信息是有效的，也很容易被淹没掺杂在无效垃圾信息之中。

    从这些海量的、有噪声的数据中提取挖掘出隐含其内、但又有用的信息知识是我们要尝试进行探讨的问题。数据挖掘是一门新近的热门研究方法，它是从大型数据集中发现可行信息的过程，数据挖掘使用数学分析来派生存在于数据中的模式和趋势。通常，由于这些模式的关系过于复杂或涉及数据过多，因此使用传统数据浏览无法发现这些模式。它主要探讨如何在海量的、有噪声的、模糊的数据资料中，挖掘出潜在的有用信息，从而为相关决策人员提供数据参考。

    2 研究方法

    2.1 选择数据数据的选择是根据需求设定数据抽取目标 ......

百拇医药网 http://www.100md.com/html/paper/1673-7202/2012/06/039.htm

您现在查看是摘要页，全文长 5361 字符。