mapreduce聚类算法

传统聚类算法本身的特点，并且结合MapReduce的编程模式，使得开发人员不需过多了解并行化的具体通信实现，就可以实现聚类算法的快速并行化，高效而且容易实现。本文对传统的各种聚类算法进行了比较，针对传统的K-means算法在初始聚类中心选择的随机性以及聚类结果的局部最优性进行了适当的改进，并将改进结果结合Hadoop框架进一步应用到实际项目中的相

　　k-m聚类在hadoop中一般通过mapreduce进行算法开发，简单的说就是在map结算将需要聚类的数据和预计的聚类点进行差异度比较，分成相应的簇，再在reduce中对这些簇找出中心点就完成了k-m聚类