当前位置: 首页 > 期刊 > 《医学信息》 > 2018年第23期
编号:13297450
基于SMOTEboost的大肠癌不平衡数据集的症型分类研究(2)
http://www.100md.com 2018年6月11日 《医学信息》 2018年第23期
     收集的大肠癌数据总共338例,其中150例收集于2007年广东省临床病案,另外188例来自文献数据,分别来源于中国知网全文数据库(CNKI)、维普全文数据库(VIP)及万方数据知识服务平台,检索年限为1990~2015年,关键词为“大肠癌”“病机”“验案”等。最终筛选出符合大肠癌病理学纳入排除标准的数据有218例,其中虚症143例(包含的证型有脾失健运、脾虚夹瘀、气血亏虚、脾肾阳虚和肝脾不调),实证75例(包含的证型有湿热内蕴、气滞血瘀、淤毒内阻),构成了不平衡数据集。表1所列为两组数据集描述,不平衡率为少数类样本量与多数类样本量之比,不平衡率越大,表明数据集整体不平衡度越高。属性为表示数据集的特征集,其中Breast cancer数据集包含的属性特征有患者样本的年龄、乳腺肿瘤大小、位置、是否复发等10个;Colorectal cancer数据集包含里急后重、大便秘结、脉沉、舌红、舌苔厚等28项症状属性特征。

    1.2数据预处理 本研究结合临床数据与文献数据,筛选出的症状输入一共有28项,包含里急后重、大便秘结、脉沉、舌红、舌苔厚等中医体征变化,并将收集到的原始数据在EXCEL表中进性“0”“1”初步量化 ......
上一页1 2 3下一页

您现在查看是摘要页,全文长 4505 字符