当前位置: 首页 > 期刊 > 《中国中医药信息杂志》 > 2018年第5期
编号:13229107
基于Hadoop的中医药数据管理策略研究(3)
http://www.100md.com 2018年5月1日 《中国中医药信息杂志》 2018年第5期
     ③在相应节点执行Reduce程序,合并Map任务的输出结果。

    ④在相应节点上,通过Reduce函数对不同数据块相同候选项集的支持度求和,进而得出全局支持度。

    ⑤将局部候选k项集的全局支持度和最小支持度阈值进行对比,进一步求得局部频繁k项集。

    ⑥将r个局部频繁k项集进行融合,进而求得全局频繁k项集。

    ⑦重复迭代,直至结束。

    该算法的时间复杂度为O(n2),对应的伪代码见图3。

    基于MapReduce改进的并行挖据算法

    输入 原分块后的事务集Di,最小支持度阈值min
    输出 频繁项集L

    Begin

    L1=find_frequent_1-itemsets(Di);

    for (k=2; Lk-1!=Φ; k++)

    {

    Cki=apriori_gen(Lk-1); ‘生成局部候选k项集

    For each transaction t∈Di

    {

    Cli=Map();

    }

    Lk=Reduce();‘Lk是全局频繁k项集

    }

    return L;

    procedure Map(TID ......
上一页1 2 3 4下一页

您现在查看是摘要页,全文长 3507 字符