%0 Journal Article %A 邱雪松 %A 王嘉潞 %A 王智立 %A 阎逸飞 %T Spark环境下基于数据倾斜模型的Shuffle分区优化方案 %D %R 10.13190/j.jbupt.2019-092 %J 北京邮电大学学报 %P 116-121 %V 43 %N 2 %X 针对Spark分布式平台在shuffle阶段中导致数据量分配不均衡的问题,首先分析了Spark平台中数据倾斜的原因,建立了一个可以统一量化shuffle后key-value数据倾斜程度的倾斜模型;基于倾斜模型提出了一个可以解决Spark平台中多种数据倾斜问题的shuffle分区方案.该分区方案首先对Map阶段的输出数据进行采样,预测出全局中间数据的大小,再根据基于哈希的最佳适应算法对采样数据进行预分区,得到一张预分区表,最后根据预分区表对全部的中间数据完成分区.在key和value这2种不同倾斜情况下的实验结果表明,该shuffle分区方案具有普适性和高效性,可以有效处理key和value倾斜的情况. %U https://journal.bupt.edu.cn/CN/10.13190/j.jbupt.2019-092