%0 Journal Article %A 何倩 %A 黄焕 %A 李双富 %A 徐红 %T 一种海量数据快速聚类算法 %D 2020 %R 10.13190/j.jbupt.2019-078 %J 北京邮电大学学报 %P 118-124 %V 43 %N 3 %X 为满足海量数据处理要求,提出了一种基于网格的K-means快速聚类算法(SPGK).设计基于网格质心的聚类簇个数选取算法,对数据进行网格划分得到每个网格的质心,将质心作为K-means聚类的样本点,从而减少K-means的欧氏距离计算次数.该算法基于Spark平台实现并行计算,进一步地提高了算法的运行效率.SPGK不但能够获得良好的聚类效果,而且缩减了欧氏距离计算次数,适用于海量数据的快速聚类.在千万级数据集上的实验结果表明,SPGK的性能明显优于现有的K-means++和基于K均值聚类的递归划分方法. %U https://journal.bupt.edu.cn/CN/10.13190/j.jbupt.2019-078