基于Hadoop的中医药数据管理策略研究(4)
在同一单节点硬件环境下,当数据规模不大时,串行算法的执行速度较快,但随着数据规模的持续增大,一旦超出一定的规模值(图5中为106 GB附近)时,串行算法的执行时间迅速增加,处理性能严重降低,最后甚至会因内存不足而无法完成任务。基于MapReduce的并行算法可通过并行任务间的交互较好地利用内存,随着数据规模的增加,逐渐体现出优势。3.3.3 非分布式下串行算法和完全分布式下并行算法实验比较
搭建真实的计算机Hadoop集群,在完全分布式环境下运行MapReduce化的并行算法。实验设计如下:分别在部署好的单节点服务器和完全分布式的Hadoop集群上处理同等规模的相同数据集(与图5实验数据集相同),其中单节点系统采用串行算法以非分布模式运行 ......
您现在查看是摘要页,全文长 2964 字符。