全科医学研究热点双向聚类计量分析
全科医师,家庭医生,2结果,3讨论
牛玉敬,胡亚平,黎 莉·全科医学热点研究·
全科医学研究热点双向聚类计量分析
牛玉敬,胡亚平,黎 莉
背景 双向聚类是近年来应用越来越广泛的一种数据挖掘技术,为文献管理提供了一种较为科学的分析方法。目的 采用双向聚类法分析全科医学研究热点,深入挖掘研究主题,发现存在的问题。方法 2016-03-01,以中国学术期刊
全科医学;聚类分析;热点;作者;关键词
牛玉敬,胡亚平,黎莉.全科医学研究热点双向聚类计量分析[J].中国全科医学,2016,19(36):4428-4433.[www.chinagp.net]
NIU Y J,HU Y P,LI L.Biclustering econometric analysis of research hotspots of general medicine[J].Chinese General Practice,2016,19(36):4428-4433.
1.2 双向聚类分析 利用书目信息共现挖掘系统(Bibliographic Items Co-occurrence Matrix Builder,BICOMB)2.0对所查文献的作者和关键词进行清洗和统计。根据普赖斯(Derek John de Solla Price)提出的核心生产者的“平方根定律”(即在同一主题中,半数的论文为一群高生产能力作者所撰,这一作者集合的数量上约等于全部作者总数的平方根[3]),取发文量≥7篇的作者为全科医学研究领域的高产作者。同时,取频次≥17次的关键词作为高频关键词。在BICOMB 2.0的矩阵模块中,利用高产作者和高频关键词两个字段形成词篇矩阵,最后再根据文章号等信息,整理得高产作者-高频关键词共现矩阵。将高产作者-高频关键词共现矩阵导入gCLUTO 1.0软件进行双向聚类分析并生成可视化矩阵和可视化山峰图。采用划分聚类算法中的重复二分(Repeated Bisection)算法,相似性计算采用余弦函数,聚类标准函数为I2。
双向聚类可视化山峰图用于描述可视化类群的总体特征和相对相似性。山峰的体积与类群包含的对象数量成比例,高度与类内相似性成比例。类内相似性越高,则山峰越陡峭。山峰的颜色与类内标准差成比例,山峰分为红、黄、绿、浅蓝和深蓝五种颜色显示,只有峰顶的颜色有意义,红色代表低标准差,蓝色代表高标准差[4]。
双向聚类可视化矩阵显示了高产作者和高频关键词两个维度的聚类结果。聚类图形的行聚类(左侧)表示的是对高产作者的分类,图右侧对应所代表的作者;聚类图形的列聚类(上方)表示的是对关键词的聚类 ......
您现在查看是摘要页,全文长 20707 字符。