网络论坛中中医药信息的聚类分析研究
分词,数据挖掘,预处理,1研究背景,2研究方法,3结语
田 野 贾李蓉 李园白 刘 静 刘丽红 李敬华 于 彤 杨 策 张竹绿(中国中医科学院中医药信息研究所,北京市东城区东直门内南小街16号,100700)
1 研究背景
近年来,随着INTERNET网络在国内的普及以及互联网用户的大量增加,以文本信息为载体的网络论坛已经成为人们获取信息[1],发表个人看法或评论,与其他人进行交流的重要平台[2-3]。每天在线论坛中皆会涌现大量主题信息,这些信息的特点往往是数量巨大,难于持久,也就是说发表过的主题隔一段时间就会被后来出现的主题所替代,最终淹没在诸多主题信息中。这些信息虽然数量庞大,但往往内容杂乱,即使有一些信息是有效的,也很容易被淹没掺杂在无效垃圾信息之中。
从这些海量的、有噪声的数据中提取挖掘出隐含其内、但又有用的信息知识是我们要尝试进行探讨的问题。数据挖掘是一门新近的热门研究方法,它是从大型数据集中发现可行信息的过程,数据挖掘使用数学分析来派生存在于数据中的模式和趋势。通常,由于这些模式的关系过于复杂或涉及数据过多,因此使用传统数据浏览无法发现这些模式。它主要探讨如何在海量的、有噪声的、模糊的数据资料中,挖掘出潜在的有用信息,从而为相关决策人员提供数据参考。
2 研究方法
2.1 选择数据 数据的选择是根据需求设定数据抽取目标 ......
您现在查看是摘要页,全文长 5361 字符。