当前位置: 首页 > 期刊 > 《医学信息》 > 2018年第23期
编号:13297491
基于SMOTEboost的大肠癌不平衡数据集的症型分类研究(1)
http://www.100md.com 2018年6月11日 《医学信息》 2018年第23期
     摘 要:目的 利用机器学习算法处理大肠癌中医症状与证型数据,建立适用于大肠癌不平衡数据集的虚实证型分类模型。方法 量化收集的大肠癌中医临床病案数据以及文献检索数据,首先采用人工合成过采样技术对数据集进行平衡处理,再结合集成学习算法Adaboost,将症状作为输入,证型作为输出,对比传统机器学习算法分类效果,探讨大肠癌的SMOTEboost分类模型在虚实证型中的分类性能。结果 SMOTEboost分类算法在大肠癌虚实证型分类模型中,F-mean较Adaboost提高了25.40%,G-mean提高了16.60%,表明构建的分类器具有较高的分类性能与泛化能力。结论 SMOTEboost复合分类器为大肠癌中医证型分类提供很好的计算机网络模型,也为其他中医病症的临床证型判定提供借鉴意义。

    关键词:大肠癌;Adaboost;SMOTE;不平衡数据集

    中图分类号:TP311.13;R735.3+4 文献标识码:A DOI:10.3969/j.issn.1006-1959.2018.23.003
, 百拇医药
    文章编号:1006-1959(2018)23-0010-03

    Abstract:Objective To establish a classification model of deficiency and solid syndrome type suitable for unbalanced data set of colorectal cancer by using machine learning algorithm to process TCM symptom and syndrome type data of colorectal cancer.Methods The data of TCM clinical records and literature retrieval of colorectal cancer were collected quantitatively.First, the artificial oversampling technique is used to balance the data set, and then the integrated learning algorithm Adaboost, is used to deal with the data set balance.Take symptoms as input, syndrome as output,and then compared the classification effect of traditional machine learning algorithm in order to study the classification performance of SMOTEboost classification model of colorectal cancer in deficiency and solid syndrome.Results In SMOTEboost classification algorithm used in the classification model of colonic carcinoma,F-mean increased 25.40% and G-mean by 16.60% compared with Adaboost which shows that the constructed classifier has high classification performance and generalization ability.Conclusion The SMOTEboost compound classifier can provide a good computer network model for the classification of TCM syndromes of colorectal cancer, and also provide reference for other TCM syndromes.
, 百拇医药
    Key words:Colorectal cancer;Adaboost;SMOTE;Unbalanced dataset

    不平衡數据集(unbalanced data sets)是指在一个数据集中,某些类的数量远远大于其他类别的数量,其中类别数量多的为多数类,类别数量少的为少数类[1]。大多数的机器学习分类算法都是基于平衡数据集的假设,然而当数据集各类别的样本分布不均匀时,分类器常常会倾向样本中的多数类[2]。现实生活中,大多数属于不平衡分类问题,如疾病诊断、人脸识别、文本分类、金融风险预测等[3]。人们往往需要知道少数类是否被正确分类,因此不平衡数据分类问题是近年来机器学习和数据挖掘的研究热点[4]。

    大肠癌(large intestinecancer)是下消化系统中一种常见的恶性肿瘤[5,6],中医在降低大肠癌化疗毒副反应,改善临床证侯,提高生存质量,以及预防复发、转移等方面显示出了一定的优势[7]。然而大肠癌临床证型大多存在病例量小、地区差异、诊断不规范、各种症型分布不均等问题,故为了实现大肠癌中医症型的有效分类,使得大肠癌辨病与辨证相结合,训练大肠癌中医症型的高效分类器将为大肠癌中医症状与症型之间的临床判断提供便利。

    1 资料与方法

    1.1数据来源 本文训练分类模型的一部分数据集来源于UCI机器学习数据库,选用乳腺癌数据集(breast cancer)用以算法仿真实验;另一部分数据集来源于人工收集的大肠癌数据(colorectal-cancer)用以分类器的验证。Breast cancer数据集共286例,标号为非复发事件(no recurrence events)的数据有201例,而类标号为复发事件(recurrence events)的数据有85例,即两类样本量不平衡。, 百拇医药(刘芬 刘秀峰)
1 2 3下一页